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Introducere 


Teoria probabilităților şi statistica matematică se aplică în majoritatea 
domeniilor ştiinţei, începând cu ştiinţele exacte şi inginereşti şi finalizând cu 
ştiinţele socio-economice, în special acolo unde există condiţii de risc şi 
incertitudine şi unde este necesară adoptarea unor decizii riguros argumentate. 

Una dintre construcţiile de bază în fundamentele statisticii şi teoriei 
probabilităților, precum şi în justificarea aplicării acestora în alte domenii, este 
dată de “legea numerelor mari” teoremă binecunoscută care îi aparține 
matematicianului Jakob Bernoulli (1654-1705), fiind apărută în lucrarea postumă 
“Ars conjectandi” (1713). Printre alți matematicieni care au rămas celebri în 
teoria probabilităților şi statistică, îi amintim pe: de Moivre, Laplace, Gauss, 
Bertrand, Poincare, Cebiîşev, Liapunov, Markov, Borel, Kolmogorov, Glivenko. 
De asemenea, şcoala românească de probabilități, fondată de Octav Onicescu, şi 
reprezentată de nume precum Gheorghe Mihoc şi Marius losifescu, a adus 
contribuţii semnificative în dezvoltarea acestui domeniu. 

Cartea de față îşi propune să vină în sprijinul studenţilor care au ca 
disciplină de studiu, în cadrul a diferite specializări, disciplina Probabilități şi 
statistică, oferindu-le acestora o gamă largă de aspecte teoretice, însoțite de 
exemple şi aplicaţii. Ca structură, cartea se fundamentează pe baza a treisprezece 
capitole, şase dintre acestea fiind dedicate Teoriei probabilităților, respectiv 
şapte capitole, Statisticii matematice. 

În Capitolul 1, sunt prezentate concepte de bază ale teoriei 
probabilităților, mai precis, experienţe aleatoare, evenimente, probabilitate, 
precum variabile aleatoare, caracteristici numerice ale variabilelor aleatoare, 
funcția caracteristică, funcția generatoare de momente. În Capitolul 3 sunt 
prezentate principalele legi de probabilitate ale variabilelor aleatoare discrete şi 
anume: legea discretă uniformă, legea binomială şi cazul său particular legea 
Bernoulli, legea binomială cu exponent negativ şi cazul particular legea 
geometrică, legea hipergeometrică şi legea Poisson (legea evenimentelor rare), 
iar în Capitolul 4 sunt prezentate principalele legi de probabilitate ale 
variabilelor aleatoare continue, şi anume: legea continuă uniformă 
(rectangulară), legea normală (Gauss-Laplace), legea log-normală, legea 
gamma, legea beta, legea ” (Helmert-Pearson), legea Student (t) şi cazul său 
particular legea Cauchy, legea Snedecor şi legea Fisher, legea Weibull şi cazul 
său particular, legea exponențială. Capitolul 5 se construieşte în jurul 
convergenței, de diferite tipuri, a variabilelor aleatoare, fiind menționate 
convergența aproape sigură, convergența în probabilitate, convergența în 
repartiție, precum şi legile numerelor mari şi teorema limită centrală. Partea 
aferentă teoriei probabilităților se încheie cu Capitolul 6, dedicat algoritmilor de 
simulare a variabilelor aleatoare. În Capitolul 7, se studiază elemente de 
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statistică descriptivă şi aspecte privind organizarea datelor, cât şi analiza 
acestora, punându-se accentul pe modalitățile de reprezentare, dar şi pe găsirea 
diverselor mărimi caracteristice. Noţiunile sunt însoţite de exemple adecvate şi 
actuale. În Capitolul 8 sunt prezentate noţiuni de teoria selecţiei, începând cu 
descrierea generării unor valori particulare ale variabilelor aleatoare discrete sau 
continue şi continuând cu legi de probabilitate ale variabilelor de eşantionare. 
Capitolul 9 conţine o scurtă introducere în teoria estimaţiei. Se prezintă, cu multe 
exemple, conceptele de estimator nedeplasat şi estimator de maximă 
verosimilitate. În Capitolul 10, sunt prezentate intervalele de încredere pentru 
principalii parametri statistici. Astfel, capitolul debutează cu fundamentarea 
formei generale a unui interval de încredere, ca metodă de estimare statistică, 
după care sunt prezentate pe rând, intervalul de încredere pentru medie, 
incluzând cazul când dispersia este necunoscută, respectiv cazul particular al 
unei proporții, apoi interval de încredere pentru diferenţa a două medii, respectiv, 
interval de încredere pentru dispersie şi pentru raportul a două dispersii, toate 
acestea însoţite de exemple practice. Capitolul 1] prezintă succint teoria deciziei. 
Sunt descrise noţiunile de ipoteză statistică, test statistic, tipuri de erori, nivel de 
semnificație, putere a unui test, p-valoare. Exemplele sunt luate din practica 
testării şirurilor binare în ceea ce priveşte caracterul aleator. În Capitolul 12, sunt 
prezentate tehnici de analiză a regresiei, atât prin intermediul aspectelor 
teoretice, cât şi prin intermediul unor exemple. În primul paragraf sunt trecute în 
revistă noțiunile de bază, fiind definite diverse tipuri de modele de regresie, 
urmând ca în ultimele trei paragrafe spaţiul să fie alocat cu precădere modelului 
liniar. Astfel, este prezentată metoda celor mai mici pătrate în estimarea 
parametrilor necunoscuţi ai unui model liniar multiplu, sunt realizate inferenţe 
asupra estimatorilor unui model liniar în ipotezele clasice Gauss-Markov, 
capitolul încheindu-se cu aspecte care ţin de previziunea şi analiza rezultatelor 
unei regresii liniare. Cartea se încheie cu Capitolul 13 în care sunt abordate 

Cartea de față a fost elaborată în cadrul proiectului 
POSDRU/56/1.2/$/32768, “Formarea cadrelor didactice universitare şi a 
studenților în domeniul utilizării unor instrumente moderne de predare-învăţare- 
evaluare pentru disciplinele matematice, în vederea creării de competenţe 
performante şi practice pentru piaţa muncii”, de către un colectiv de autori, cadre 
didactice universitare, astfel: capitolele 1 şi 2, Lucia Căbulea, capitolele 3 şi 4, 
Rodica Luca-Tudorache, capitolele 5, 6 şi 13, Gheorghiţă Zbăganu, capitolele 7 
şi 8, Ariana Pitea, capitolele 9 şi 11, loan Rasa, respectiv capitolele 10 şi 12, 
Nicoleta Breaz. 

Finanţat din Fondul Social European şi implementat de către Ministerul 
Educaţiei, Cercetării, Tineretului şi Sportului, în colaborare cu The Red Point, 
Oameni şi Companii, Universitatea din Bucureşti, Universitatea Tehnică de 
Construcţii din Bucureşti, Universitatea  „Politehnica” din Bucureşti, 
Universitatea din Piteşti, Universitatea Tehnică „Gheorghe Asachi” din Iaşi, 
Universitatea de Vest din Timişoara, Universitatea „Dunărea de Jos” din Galaţi, 
Universitatea Tehnică din Cluj-Napoca, Universitatea “1 Decembrie 1918” din 
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Alba-lulia, proiectul contribuie în mod direct la realizarea obiectivului general al 
Programului Operaţional Sectorial de Dezvoltare a Resurselor Umane — 
POSDRU şi se înscrie în domeniul major de intervenţie 1.2 Calitate în 
învăţământul superior. 

Proiectul are ca obiectiv adaptarea programelor de studii ale disciplinelor 
matematice la cerințele pieței muncii şi crearea de mecanisme şi instrumente de 
extindere a oportunităţilor de învăţare. 

Evaluarea nevoilor educaţionale obiective ale cadrelor didactice şi 
studenților legate de utilizarea matematicii în învățământul superior, masterate şi 
doctorate precum şi analizarea eficacităţii şi relevanţei curriculelor actuale la 
nivel de performanță şi eficiență, în vederea dezvoltării de cunoştinţe şi 
competenţe pentru studenții care învață discipline matematice în universităţi, 
reprezintă obiective specifice de interes în cadrul proiectului. Dezvoltarea şi 
armonizarea curriculelor universitare ale disciplinelor matematice, conform 
exigențelor de pe piața muncii, elaborarea şi implementarea unui program de 
formare a cadrelor didactice şi a studenților interesați din universităţile partenere, 
bazat pe dezvoltarea şi armonizarea de curriculum, crearea unei baze de resurse 
inovative, moderne şi funcționale pentru predarea-învățarea-evaluarea în 
disciplinele matematice pentru învățământul universitar sunt obiectivele 
specifice care au ca răspuns materialul de față. 

Formarea de competenţe cheie de matematică şi informatică presupune 
crearea de abilități de care fiecare individ are nevoie pentru dezvoltarea 
personală, incluziune socială şi inserție pe piața muncii. Se poate constata însă că 
programele disciplinelor de matematică nu au întotdeauna în vedere identificarea 
şi sprijinirea elevilor şi studenților potențial talentați la matematică. Totuşi, 
studiul matematicii a evoluat în exigenţe până a ajunge să accepte provocarea de 
a folosi noile tehnologii în procesul de predare - învăţare - evaluare pentru a face 
matematica mai atractivă. 

În acest context, analiza flexibilității curriculei, însoţită de analiza 
metodelor şi instrumentelor folosite pentru identificarea şi motivarea studenților 
talentați la matematică ar putea răspunde deopotrivă cerinţelor de masă, cât şi 
celor de elită. 

Viziunea pe termen lung a acestui proiect preconizează determinarea 
unor schimbări în abordarea fenomenului matematic pe mai multe planuri: 
informarea unui număr cât mai mare de membri ai societății în legătură cu rolul 
şi locul matematicii în educaţia de bază în instrucție şi în descoperirile ştiinţifice 
menite să îmbunătățească calitatea vieţii, inclusiv popularizarea unor mari 
descoperiri tehnice, şi nu numai, în care matematica cea mai avansată a jucat un 
rol hotărâtor. De asemenea, se urmăreşte evidențierea a noi motivații solide 
pentru învăţarea şi studiul matematicii la nivelele de bază şi la nivel de 
performanță; stimularea creativității şi formarea la viitorii cercetători 
matematicieni a unei atitudini deschise față de însuşirea aspectelor specifice din 
alte ştiinţe, în scopul participării cu succes în echipe mixte de cercetare sau a 
abordării unei cercetări inter şi multidisciplinare; identificarea unor forme de 
pregătire adecvată de matematică pentru viitorii studenți ai disciplinelor 
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matematice, în scopul utilizării la nivel de performanţă a aparatului matematic în 
construirea unei cariere profesionale. 
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Capitolul 1 


Teoria probabilităților 


1.1. Formalizarea experienţelor aleatoare 
1.1.1. Evenimente 


Definiţia 1.1.1. Realizarea practică a unui ansamblu de condiţii bine precizat 
poartă numele de experienţă sau probă. 


Definiţia 1.1.2. Prin eveniment vom înțelege orice rezultat al unei experiențe 
despre care putem spune că s-a realizat sau că nu s-a realizat, după efectuarea 
experimentului considerat. Evenimentele se pot clasifica în: evenimente sigure; 
evenimente imposibile, evenimente aleatoare. 


Definiţia 1.1.3. Evenimentul sigur este evenimentul care se produce în mod 
obligatoriu la efectuarea unei probe şi se notează cu O. 


Definiţia 1.1.4. Evenimentul imposibil este evenimentul care în mod obligatoriu 
nu se produce la efectuarea unei probe şi se notează cu p. 


Definiţia 1.1.5. Evenimentul aleator este evenimentul care poate sau nu să se 
realizeze la efectuarea unei probe şi se notează prin litere mari A, B, C, ..., sau 
prin litere mari urmate de indici 4; B;..... 


Definiţia 1.1.6. Evenimentul contrar evenimentului A se notează A şi este 
evenimentul ce se realizează numai atunci când nu se realizează evenimentul A. 


Definiţia 1.1.7. Un eveniment se numeşte: 

1) elementar dacă se realizează ca rezultat al unei singure probe; se 
notează cu &. 

2) compus dacă acesta apare cu două sau mai multe rezultate ale 
probei considerate. 


Definiţia 1.1.8. Mulțimea tuturor evenimentelor elementare generate de un 


experiment aleator se numeşte spaţiul evenimentelor elementare (spațiul de 
selecție) şi se notează cu O. Acesta poate fi finit sau infinit. 


INI 


Observaţia 1.1.9. O analogie între evenimente şi mulțimi permite o scriere şi în 
general o exprimare mai comode ale unor idei şi rezultate legate de conceptul de 
eveniment. Astfel, vom înţelege evenimentul sigur ca mulțime a tuturor 
evenimentelor elementare, adică: O = lo, „0, e . şi orice eveniment compus 
ca o submulțime a lui O. De asemenea, putem vorbi despre mulțimea tuturor 
părților lui O pe care o notăm prin P(0), astfel că pentru un eveniment compus 
A putem scrie, în contextul analogiei dintre evenimente şi mulțimi, că ASCO 
sau Ae P(9). 


Exemplul 1.1.10. Fie un zar, care are cele şase fețe marcate prin puncte de la 1 
la 6. Se aruncă zarul pe o suprafaţă plană netedă. Dacă notăm cu oi = 
evenimentul "apariţia feţei cu i puncte”, i = 1,6, atunci spațiul evenimentelor 
elementare ataşat experimentului cu un zar este dat prin  O=10:, 02, 03, 
Wq4., 95, 06 9 
Evenimentul sigur O este "apariţia feţei cu un număr de puncte < 6". 
Evenimentul imposibil g este "apariţia feței cu 7 puncte”. 


1.2. Relaţii între evenimente 


Definiţia 1.2.1. Spunem că evenimentul A implică evenimentul B şi 
scriem A CB, dacă realizarea evenimentului A atrage după sine şi realizarea 
evenimentului B. 


Observaţia 1.2.2. ACB şi BcC rezultă AcC - proprietatea de 
tranzitivitate a relaţiei de implicare. 


Definiţia 1.2.3. Spunem că evenimentele A şi B sunt echivalente (egale) dacă 
avem simultan ACB şi BCA. 


Definiţia 1.2.4. Prin reunirea evenimentelor A şi B vom înțelege evenimentul 
notat Au B care constă în realizarea a cel puţin unuia dintre evenimentele A şi 
B. Deoarece evenimentele A şi B sunt submulțimi formate cu evenimentele 
elementare ale spațiului O, rezultă că reunirea evenimentelor poate fi scrisă 
astfel: 


AUB=lweQ/oe4 sau oeB! 


Observaţia 1.2.5. Dacă notăm prin K mulțimea tuturor evenimentelor asociate 
unui experiment aleator avem: 
|. VA,BeK>AUB=BUA (comutativitatea); 


2. VA,B,.CeK=(AUB)UC=AU(BUC) (asociativitatea); 
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3. Dacă A,BekKşi ACB>AUB=B (evident AUVO=0, 
AUP=A, QUG=0 şi AVA=0). 


Definiţia 1.2.6. Prin intersecția evenimentelor A şi B vom înțelege evenimentul 
notat AmBcare constă în realizarea simultană a ambelor evenimente. 
Intersecţia evenimentelor A şi B poate fi scrisă sub forma: 


ANB=lweQ/oe4 şi oeB! 


Observaţia 1.2.7. Au loc relațiile următoare: 
|. VA,BeK>ANB=BmA (comutativitatea) 


2. VA,B,CeK=(AnNB)OC=An(BNC) (asociativitatea) 

3. Dacă A,Bek şi AcCB atunci ANB=A (evident 
ANOO = A,A00=0, 0 0=0 şi AnNA=A). 

4. VAeK>An4=9 


Definiţia 1.2.8. Spunem că evenimentele A şi B sunt incompatibile dacă 
ANB = 8, adică realizarea lor simultană este imposibilă, şi spunem că sunt 
compatibile dacă ANBz 0, adică este posibilă realizarea lor simultană. 
Evenimentele A şi B sunt contrare unul altuia dacă AU B=0 şi ANB= 0, 
adică realizarea unuia constă din nerealizarea celuilalt. 


Definiţia 1.2.9. Se numeşte diferența evenimentelor A şi B, evenimentul notat A- 
B care se realizează atunci când se realizează evenimentul A şi nu se realizează 
evenimentul B. Diferenţa evenimentelor poate fi scrisă sub forma: 


4-B=loeQ/oe4 şi ogB! 


Observaţia 1.2.10. Evident avem A -B=An B şi E-A=A. 
Au loc relaţiile lui De Morgan: AUB=ANB şi ANB=AUB şi 
respectiv generalizările UA, =: (A; (A, = UA. 


iel iel iel iel 


Teorema 1.2.11. Dacă evenimentele A, B, C, D e K, atunci sunt adevărate 
următoarele afirmaţii: 

i A-B=A-(AnNB) 

ii) A-B=(AUB)-B 

iii) A=(A-B)U(AnNB) 

iv) (A-B)n(B-A)=9 

v) AUB=AU|B-(AnNB)] 

vI) AN(B-0)=(AnB)-(AnNC) 

vii) (A-B)n(C-D)=(AnN0)-(BUD) 


Definiţia 1.2.12. Evenimentele A şi B sunt dependente dacă realizarea unuia 
depinde de realizarea celuilalt şi sunt independente dacă realizarea unuia nu 
depinde de realizarea celuilalt. 

O mulțime de evenimente sunt independente în totalitatea lor dacă sunt 
independente câte două, câte trei etc. 

Pentru evenimentele independente în totalitatea lor vom folosi şi 
denumirea de evenimente independente. 


1.3. Câmp de evenimente 


Definiţia 1.3.1. O mulțime nevidă de evenimente K < P(0)se numeşte corp 
dacă satisface axiomele: 


î) vAeKk=AekK 
in) VA,Bek>AUBekK. 


Cuplul (O, K) se numeşte câmp finit de evenimente, în cazul în care K 
este un corp. 


Observaţia 1.3.2. 
1. Într-un câmp finit de evenimente (O, K) sunt adevărate afirmaţiile: 


a. 4,BeK = A-BeK 

b. Evident pekK şi OQeK. 

c. Dacă A, B e Kartunci ANBekK. 

2. Dacă mulțimea evenimentelor elementare este numărabilă, o mulțime 
K < P(0)se numeşte corp borelian (sau O -corp, sau O -algebră) pe O, în 
condiţiile: 

i) vAeK>AcK, 

i) dacă IEN,lzg şi A; eK, (v); e], atunci Ua, eK, 

iel 

iii) Oe K. 

Perechea (09,K) în care K este un o -corp se numeşte câmp borelian 
(câmp infinit) de evenimente. 


Definiţia 1.3.3. Într-un câmp finit de evenimente (9, K), evenimentele A, eK, 


i = ,n, formează un sistem complet de evenimente (sau o partiție a câmpului) 
dacă: 


3) U4,=0 
i=l 


i) ADA; =0 Vizi, ii=ln 


Observaţia 1.3.4. Evenimentele elementare &,;, i =1,n, corespunzătoare unei 


probe formează un sistem complet de evenimente care se mai numeşte sistem 
complet elementar. 


Propoziția 1.3.5. Dacă 0=(0,0,.--s0, atunci câmpul de evenimente 
corespunzător conţine 2" evenimente. 


Demonstraţie 

Pentru un experiment de n rezultate elementare şi prin urmare pentru un 
eveniment sigur compus din n evenimente elementare, vom avea diverse 
evenimente compuse din acestea după cum urmează: 


— evenimente compuse din câte zero evenimente elementare = C% 
— evenimente compuse din câte un eveniment elementar = C! 


— evenimente compuse din câte două evenimente elementare = C? 


— evenimente compuse din câte k evenimente elementare = C* 


— evenimente compuse din câte n evenimente elementare = Cy 
şi prin urmare, numărul total de evenimente ale lui K este egal cu 
CO + C++ CE +. + C" =2" 


1.4. Câmp de probabilitate 


Definiţia 1.4.1.(axiomatică a probabilității) Fie (0,K) un câmp finit de 
evenimente. Se numeşte probabilitate pe câmpul considerat o funcţie P:K—R 
care satisface axiomele: 

i) P(4)>0, VAeK, 

ii) P(O)=1, 

iii) P(A UB) = P(A)+P(B), VA,BeK, şi ANB=9. 


Definiţia 1.4.2. Se numeşte câmp finit de probabilitate tripletul 109, K, P! unde 
cuplul (O,K) este un câmp finit de probabilitate, iar P:K—Reste o 
probabilitate pe K. 


Observaţia 1.4.3. În cazul în care câmpul de evenimente (O, K) este infinit (K 
este infinită) probabilitatea P definită pe K satisface axiomele: 

9) P(A)>0,vAekK 

ii) P(OJ1 


iii) (UA, ]- ra) dacă 4,n4,= Biz), ijel, A;eK, 
iel iel 


I-o mulțime de indici cel mult numărabilă. 


Propoziția 1.4.4. 4u Joc relaţiile: 
1. P(9)=0 
2. P(A)=1-P(A) 


3. (a, ]- Sea) dacă 4,14,=B iz), ij=Ln 


Demonstraţie 

1) Din relaţiile Bu 0= 0 şi B n O = 0 aplicând axioma iii) din 
definiția probabilității avem P(0) = P(OU 0)= P(0)+ P(Q) şi rezultă P(0) = 
0) 

2) Din relaţiile AU 4=0Q şi An A4=0 aplicând axioma iii) din 
definiţia probabilității avem P(AU 4) = P(4)+ P(A) adică 

P(Q) = P(4)+ P(A) şi rezultă P(4) =1- P(4) 

3) Demonstrăm prin inducție matematică 


Pentru n =2 P(A. uU A») = P(A.) + P(A») relația este adevărată conform 
axiomei iii) din definiția probabilității. 
Presupunem relația adevărată pentru n — 1 evenimente, adică 


n-l n-l 
AU 4] E SP(4,) şi demonstrăm pentru n evenimente 


04] - A(U4)-4.] - Uau - S P(4)+ P(4,) - 5 P(4,) 


n-l 
dacă s-a folosit ipoteza de inducție şi s-a ținut seama că U 4] NA, =90. 


i=l 


Definiţia 1.4.5. (clasică a probabilității) Probabilitatea unui eveniment A este 
egală cu raportul dintre numărul evenimentelor egal probabile favorabile 
evenimentului A şi numărul total al evenimentelor egal probabile. 

Altă formulare: probabilitatea unui eveniment este raportul între 
numărul cazurilor favorabile evenimentului şi numărul cazurilor posibile. 


Observaţia 1.4.6. 

1) Conform acestei definiții nu putem stabili probabilitatea unui 
eveniment ce aparține unui câmp infinit de evenimente. 

2) Definiţia clasică se aplică numai atunci când evenimentele 
elementare sunt egal posibile. 
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Exemplul 1.4.7. Considerăm experienţa de aruncare a unui zar. Evenimentele 
elementare sunt egal posibile şi avem 6 cazuri posibile. Notăm cu A evenimentul 
"apariția unei feţe cu număr par de puncte <6 " numărul cazurilor favorabile 
evenimentului A este 3. Deci P(A) = Ă = E ş 
Exemplul 1.4.8. Dintr-o urnă cu 15 bile numerotate de la 1 la 15 se extrage o 
bilă la întâmplare. Se consideră evenimentele: 

A = obţinerea unui număr prim; 

B = obținerea unui număr par; 

C =obţinerea unui număr divizibil prin 3. 

Să calculăm probabilitățile acestor evenimente. 


Rezolvare 
In această experiență aleatoare numărul total al cazurilor posibile este 
15. 
Pentru A numărul cazurilor favorabile este 6, adică (2, 3, 5, 7, 11, 13), 
deci pa 0 
15 5 
Pentru B numărul cazurilor favorabile este 7, adică (2, 4, 6, 8, 10, 12, 
14), deci P(B) = i: 
Pentru C, numărul cazurilor favorabile este 5, adică ! 3, 6, 9, 12, 15), 
, | 
deci P(C) A: 
15 3 


1.5. Reguli de calcul cu probabilități 


P,) Probabilitatea diferenței: Dacă A,BeK şi Ac B atunci 
P(B-A)=P(B)-P(A) 


Demonstraţie 

Din relațiile B= AU (B- A) şi An (B- A) = 0 aplicând axioma iii) 
avem P(B) = P|AU(B -— 4)]= P(4)+ P(B-4) 
P») Probabilitatea reunirii (formula lui Poincare): 

Dacă A,BeK atunci P(AU B)= P(4)+P(B)-P(4AN8B). 


Demonstraţie 

Din relaţiile AUVB=AUlB-(418)] şi AAn|B-(408)]=0 
aplicând axioma iii) avem 

P(4U B) = P(4)+ PlB-(4n8)]= P(4)+ P(B)- P(4n 8) 
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dacă s-a folosit Pi. 


Generalizare: 
Dacă AAo,. An sunt evenimente compatibile atunci 


Aa) = 5 P(4) = SpA D4)+ XP(A 04, 04) + cmrAf 4) 
| P(AnNB) 
P(B) 


numim probabilitatea lui A condiționată de B şi notăm Pa(4) sau P(A|B) 


P3) Probabilități condiționate: Dacă P(B)z0 atunci raportul îl 


Demonstraţie 
Arătăm că P,(A) satisface axiomele probabilității: 
9) P„(4) > 0 deoarece P(4An8B8)20 şi P(8)>0 
i) Pi dy Et); BO) 
P(B) P(B) 


ii) Fie Ai şi A» e Kşi 4,14, =0. Avem 
P(BO(4U4,))_ Pl(Bo4)u(804)]_ 


Ps(4 VU 4.) 

P(B) P(B) 
_P(BO4)+ P(B04-) PB 4), P(BO4) p (44 PA N 
= P(B) azi P(B) Î P(B) Zi 1 B 2 


dacă (Bn4,)n(814,)=0. 


Observaţia 1.5.1. 
1) Oricărui câmp de evenimente (09,K) îi putem ataşa un câmp de 


probabilitate condiționat 109, K, Pa). 

2) P(ANB)=P(B)-Pp(A)- formula de calcul a intersecţiei a două 
evenimente dependente. Are loc o generalizare: dacă Au, 42, ...An Sunt 
evenimente dependente atunci 


(fa. = P(A "Pa (Aa) Para, (Aa). Pa, (A). 
i=l i 

3) Dacă evenimentele A şi B sunt independente atunci Pa(4)=P(A4) şi 
P(ANB) = P(A).-P(B)- formula de calcul a intersecţiei a două evenimente 


independente. 


Generalizare: 
Dacă A, Ap, ...A, sunt evenimente independente atunci 


(fa, )-Tpeao: 


4) Dacă evenimentele A şi B se condiţionează reciproc şi 
P(A) z0,P(B)z 0 atunci P(A)-P, (B)= P(B)-P.(A). 


P4) Probabilitatea reunirii evenimentelor independente. Dacă A1, 42, ...An Sunt 


evenimente independente, atunci: (U A] == INI (1-P(A,)) 


i=l i=l 


Demonstraţie 


Folosind relaţiile lui De Morgan UA; = (Na, şi faptul că A; sunt 
i=l i=l 
evenimente independente implică 


AU4) = i-a) = i-2([)4)] = -[ 24) =1 -Tlu- 244) 


Ps) Inegalitatea lui Boole: A, 42, ...A1, sunt evenimente dependente atunci 


[a] > SP(4) —(n-1)= I-SP(4) 


Demonstraţie 
Verificăm inegalitatea din enunț prin inducție matematică. 


Pentru n = 2 avem P(4U4,)= P(4)+P(4,)-P(404,) dacă 
P(A UA.) şirezultă P(A, n 4,)> P(4,)+ P(4,)-—1 relaţia este adevărată. 
Presupunem inegalitatea adevărată pentru n-l adică 


n-l n-l 
(i 4] > 2 PA, )- (n —2) şi demonstrăm pentru n. 


Avem succesiv 
n nl n-l 

a(05) = Aa) 4] > za | ra- > 
i=l i=l i=I 


n-l n 


> S P(4p)—(n-2)+ P(4,)-1= 5 P(A4)-(n-D 


dacă s-a ţinut seama de ipoteza de inducţie. 
P6) Formula probabilității totale: Dacă 41,42, ...A„ este un sistem complet de 


evenimente şi Xe K atunci P(X)= A P(A;)-P, (X). 
i=l 


Demonstraţie 
Din ipoteza că A;, i = 1,n este un sistem complet de evenimente rezultă 
că X = (4, NĂ)UV(4,NĂ)U... VA, NĂ) 


Deoarece 4; 14; =0, iz j,i,j =L|n avemcă 
(Xn4p)n(ăn4,)=90, iz j,ij=Ln 


Avem succesiv 


P(X)= AU D ») = d P(4, 0 X)= 2,P(4)- PX) 

i=l i=l i=l 
P-) Formula lui Bayes: Dacă A, 42, ...A„ este un sistem complet de evenimente 
al câmpului (O, K) şi Xe K atunci: 
P(A;)-PA (X) 


DP(A:) PA (X) 


Px(A:)= 


„1=l|n 


Demonstraţie 
Deoarece P(Xn4,)=P(X)-P(4,) şi 

P(X n 4,)= P(A,)- PX) avem  P(X)- Pa(4,)= P(4,)-P,Ă), deci 

P(4,):P, (ă) a P(A,)- PX) 


POD OS pp-P,00 


dacă s-a folosit formula 


P„(4;) = 


probabilității totale. 


Exemplul 1.5.2. Cele 26 de litere ale alfabetului, scrise fiecare pe un cartonaş, 
sunt introduse într-o urnă. Se cere probabilitatea ca extrăgând la întâmplare de 
5 ori câte un cartonaş şi aşezându-le în ordinea extragerii să obținem cuvântul 
LUCIA. 


Rezolvare 

Notăm prin X evenimentul căutat, deci de a obţine prin extrageri 
succesive cuvântul LUCIA, de asemenea notăm prin A, = evenimentul ca la 
prima extragere să obţinem litera L; A» = evenimentul ca la a doua extragere să 
obținem litera U; A3 = evenimentul ca la a treia extragere să obținem litera C; A4 
= evenimentul ca la a patra extragere să obţinem litera I; As = evenimentul ca la a 
cincea extragere să obţinem litera A. 

Atunci evenimentul X are loc dacă avem 

X=A NA,NA,NA NA. 
Rezultă: 
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P(X)= P(4,): P(4,|4,): P(A|A, n 4): PUA,A 04,04): 
LA NA PNR |N | 


- P(AL|A, DA, DA NA,)= . . —.—, 
(44040404) 26 25 24 23 22 


Exemplul 1.5.3. Dacă probabilitatea ca un automobil să plece în cursă într-o 
dimineaţă friguroasă este de 0,6 şi dispunem de două automobile de acest fel, 
care este probabilitatea ca cel puţin unul din automobile să plece în cursă într-o 
dimineaţă friguroasă? 


Rezolvare 

Dacă notăm prin A; şi A» evenimentele ca primul respectiv, al doilea 
automobil să plece în cursă şi prin X evenimentul căutat, deci ca cel puţin unul 
dintre automobile să plece în cursă, avem: X=A,UVA,, 1ar 
P(X)= P(A, UA,)=P(A,)+P(A,)-P(A, NA, ), deoarece evenimentele A, 
şi A, sunt compatibile (cele două automobile pot să plece în cursă deodată). 
Cum P(A,) = P(A,) = 0,6, iar evenimentele A, şi A, sunt independente între 
ele (plecarea unui automobil nu depinde de plecarea sau neplecarea celuilalt), 
deci P(A, A.) = P(A, )P(A,)= (0,6)”. Se obţine că P(X) = 0,6 + 0,6 - (0,6) 
= 0,84. 


Exemplul 1.5.4. 7rei secții ale unei întreprinderi S$,,$,,S, depăşesc planul 


zilnic de producţie cu probabilitățile de respectiv 0,7; 0,8 şi 0,6. Să se calculeze 
probabilitățile evenimentelor. 

A - cel puţin o secție să depăşească planul de producție. 

B - toate secțiile să depăşească planul de producție. 


Rezolvare 
Fie A, evenimentul ca secția S$, să depăşească planul de producție. 


Avem: A= A, UVA,UA,, deci 
P(A) = P(A, UA, UA,)=1-P(A, NA, NA,)= 1-P(A,)-P(A,)-P(A,) = 
1- (1-0,7)(1-0,8)(1-0,6) = 1—0,3-0,2-0,4 = 0,976. 
B= A MNA,NA, şi ţinând seama de independenţa evenimentelor, avem: 
P(B) = P(A, NA, NA.) =P(A,)-P(A,)-P(A,) =0,7.0,8:0,6 = 0,336. 


Exemplul 1.5.5. O presă este considerată că satisface standardul de fabricaţie 
dacă trei caracteristici sunt satisfăcute. Dacă aceste caracteristici A, B şi C sunt 

pe E SRI 9 VARA INI , 
satisfăcute cu probabilitățile P(A4) = e P(B) = îsi şi P(C) = 5: atunci 
probabilitatea ca să fie satisfăcute toate trei caracteristicile se poate evalua cu 


formula lui Boole. Astfel se poate scrie: 
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P(ANBAC) >1-|P(A)+ P(B)+ P(C)| adică 
P(ANBNO)=I - = | 2 
10 "11 12" 660 


Exemplul 1.5.6. Un sortiment de marfă dintr-o unitate comercială provine de la 
E at poe aa ra „1l A e: UL 
trei fabrici diferite în proporţii, respectiv i de la prima fabrică, g de la a doua 


fabrică şi restul de la fabrica a treia. Produsele de la cele trei fabrici satisfac 
standardele de fabricaţie în proporție de 90%, 95% şi respectiv 92%. Un client 
ia la întâmplare o bucată din sortimentul de marfă respectiv. 

a) Care este probabilitatea ca produsul să satisfacă standardele de 
fabricaţie? 

b) Care este probabilitatea ca produsul să fie defect şi să provină de la 
prima fabrică? 


Rezolvare 
a) Notămcu A,,A, şi A, evenimentele ca produsul cumpărat să fie de 
la prima, a doua, respectiv a treia fabrică. Aceste trei evenimente formează un 


sistem complet de evenimente şi au probabilitățile P(A,)= 2, P(A)=2 şi 


P(4,) = 2. Dacă A este evenimentul că produsul cumpărat de client satisface 


standardele de fabricaţie, atunci P(AJA,) = 0,90,  P( AJA.) =0,95 şi 
P( AJA 3) = 0,92. Folosind formula probabilității totale se obține: 
P(4)= P(4,)- P(AJA) + P(4,)- P(AIA,) + P(4,)- P(A14,) = 


ea -0,90 + L..0,95 Liz 
9 6 2 


= 0,918 


b) Folosind formula lui Bayes, avem: 


tei P(A.)P(AJA,) Ş 
P(A. A) _ zis E 
P(A )P(AJA ) + P(A)P(AȚA,) + P(A (AA) 
| 
10,10 
= - : —= [ = 0,408, 
-0,10+ —-0,05+ 0,08 0% 
3 6 2 


Exemplul 1.5.7. Un student solicită o bursă de studii la 3 universităţi. După 
trimiterea actelor necesare, acesta poate obţine bursă de la universitatea i (U;) 


sau nu (U,), 1 <i<3. Scrieţi evenimentele ce corespund următoarelor situaţii : 
a) primeşte o bursă; 
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b) primeşte cel mult o bursă; 
c) primeşte cel puţin o bursă; 
d) primeşte cel puţin două burse. 


Rezolvare 

a) Bursa primită poate fi de la prima universitate, caz în care celelalte 
nu-i acordă bursă, sau de la a doua, caz în care prima şi a treia nu-i acordă bursă, 
sau de la a treia, caz în care primele două nu-i acordă bursă. Avem astfel 
evenimentul 


A=(U, NU, NU) VU, NU, NU) VU, NU, NU). 

b) Avem două variante : studentul nu primeşte nici o bursă sau studentul 
primeşte o bursă. Obţinem evenimentul 

B=(U NU, NU,)UA. 

c) Evenimentul poate fi scris ca reuniunea a trei evenimente : studentul 
primeşte o bursă, două burse, trei burse. Astfel C=AVvEUF, unde 
E=(U, NU, NU)U(U, NU, NU VU, NU, NU), 

fc) 0 0 2 PA ga) O Aa) E AI 

d) Avem D=EUF. Altfel, evenimentul D este contrar evenimentului 
B, deci D= B=(U,nU,nU.)UA. 


Exemplul 1.5.8. Într-un grup de studenți aflaţi în excursie se găsesc 6 fete şi 9 
băieți. Se aleg la întâmplare doi studenți pentru a cerceta traseul. Care este 
probabilitatea ca cei doi să fie : 

a) băieți; 

b) fete; 

c) un băiat şi o fată; 

d) cel puțin un băiat; 

e) primul băiat şi a doua fată; 

JP) de acelaşi sex. 


Rezolvare 
Notăm cu A. şi A» evenimentele alegerii unui băiat la prima, respectiv a 
doua alegere. La primul punct avem de calculat probabilitatea P(4n4,). 
Întrucât a doua alegere depinde de prima avem : 
9-8. .12 
P(A N 4,) = P(AD)P(A,|A)=—-—=—, 
(404) = P(A)P(A,4,) ja 14 33 
deoarece alegând un băiat mai rămân în grup 14 studenți între care 8 băieți. 
Evenimentul de la punctul b) se scrie astfel: B= A NA). Deci 
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Evenimentul de la punctul c) este C=(4n 4,) U(4,N 4) aşadar 
P(C)= P(A, 0 4,)+ PA, 04), (404,4, NA, sunt incompatibile) 


— ss 9 6 
Dar P(A N 4,)= P(A)P(A, /A)=—-—, 
( | i) ( ) ( PA i) 15 14 
aia BOA 20) RUA ) BURSA 5 200 pe 
sta, ee 054 
de ati (0) die ae Dati, 
15 14 35 


Am obținut şi probabilitatea evenimentului de la punctul e) P(4, n 4) ; 
Evenimentul de la punctul d) se exprimă astfel : D= AU 4,. 


EI este contrar evenimentului : B = A, O A, , prin urmare 
P(D)=1- P(8)=1 - = a Evenimentul de la ultimul punct f) este 


F=(414)U(4104) . Cum (4104)0(414)=0 cele două 
evenimente sunt incompatibile şi deci 


—— D201 17 
P(F)= P(A 0 4,)+ P(A NA.) —+—=—. 
(£)= P(A 0 4,)+ P(UA 04) ZI 


Exemplul 1.5.9. La un examen de licență participă mai mulți absolvenţi, între 
care numai trei din străinătate. Probabilitatea ca primul student să promoveze 
este 4, probabilitatea ca al doilea să promoveze este 4/5, iar pentru al treilea 
5/6. Să se determine probabilitățile ca : 

a) toţi cei trei studenți să promoveze; 

b) cel puțin unul să promoveze examenul. 


Rezolvare 

Fie A; evenimentul promovării examenului de către studentul i, i=1,2,3. 
Evenimentul de la punctul a) este A= 4, n4,N4,, iar de la punctul b) este 
B=AVUA,U 4. Evenimentele A; sunt independente (rezultatele celor 3 
studenţi nedepinzând unul de celelalte), deci 


P(4) = P(ADP(A)P(4,) = i 


ui | 


al 
Ge 2 

Folosind proprietățile probabilității avem : 

P(B)= P(A U 4, 9 43)> P(A U 4)+ P(4,)— PUA 9 4) 04) = 
= P(4)+ P(4,)- P(4,.042)+ P(4,)- P(4,.04)V(4,04))= 
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= P(4,)+ P(4)— PA 0 4)+ P(4)-LP(A, O 43)+ P(4A O 4)- 
— PU(A 0 4)0(404))> PUA)+ PA4)+ P(4) 
- P(4 n 4,)— P(4, 14) —P(4, 049) + P(4 04,04). 


Ținând seama de independenţa evenimentelor A; , :=1,2,3, avem: 


P(B) = P(A4,)+ P(4,)+ P(4)— P(A,)P(4,)— P(A,)P(4)— P(4)P(4)+ 
3 4 5 34 35 45 345 119 
4 5 6 45 46 56 456 120 


+ PUADP(4)P(4) = 


Exemplul 1.5.10. Din mai multe controale asupra activităţilor a trei magazine 
se apreciază că în proporție de 90%, 80%, 70%, cele trei magazine au declarat 
marfa vândută. La un nou control, comisia de control solicită 50 de documente 
privind activitatea comercială: 20 de la primul magazin, 15 de la al doilea, 15 
de la al treilea. Dintre acestea se alege unul la întâmplare pentru a fi verificat: 

a) Cu ce probabilitate documentul ales este corect (înregistrat)? 

b) Constatând că este corect, cu ce probabilitate el aparține primului 
magazin? 


Rezolvare 
a) Notăm cu Aj, A2, A3 evenimentul ca documentul controlat să provină 
de la primul, al doilea şi respectiv al treilea magazin. Avem astfel 


20 15 15 
AA ae 


Fie A evenimentul ca documentul controlat să fie corect. Atunci  A/ 
A, A/Ao, A/ A3 reprezintă evenimentul ca documentul controlat să fie corect 
ştiind că el provine de la primul, al doilea, al treilea magazin. Prin urmare : 
P(A/A1)=0,90; P(A/A»)=0,80; P(A/A3)=0,70 . Cum (Ai, A, A3) este un sistem 
complet de evenimente 


A UA, UA, = E, A NA, = A 04 = ANA =0 

aplicând formula probabilității totale avem : 

P(4)= P(A)P(A/ 4,)+ P(A,)P(A/ 4,)+ P(A.)P(A/ 4.) = 
20 15 15 


= — 0,90 + —-0,80+ —-0,70 = 0,81. 
50 50 50 


b) Aplicând formula lui Bayes avem : 
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20 


——.:0,90 
P(ADP(A/ A 2 0,36 4 
pay 2) ( ) a ZE RI 
S P(ADP(A!/ 4) 
i=l 


(A//A reprezintă evenimentul ca documentul controlat să provină de la 
primul magazin ştiind că a fost corect). 
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Capitolul 2 


Variabile aleatoare 


Variabila aleatoare este una din noțiunile fundamentale ale teoriei 
probabilităților şi a statisticii matematice. În cadrul unei cercetări experimentale 
se constată că între valorile numerice măsurate există diferenţe chiar dacă rămân 
neschimbate condiţiile de desfăşurare ale experimentului. 

Dacă ne referim la o singură măsurătoare, variabila aleatoare este acea 
mărime care ăn cadrul unui experiment poate lua o valoare necunoscută aprioric. 
Pentru un şir de măsurători, variabila aleatoare este o noţiune care-l 
caracterizează din două puncte de vedere: 

- caracterizare din punct de vedere cantitativ — variabila ne dă informaţii 
privind valoarea numerică a mărimii măsurate; 

- caracterizare din punct de vedere calitativ — variabila aleatoare ne dă 
informaţii privind frecvenţa de apariţie a unei valori numerice într-un şir. 

Dacă valorile numerice ale unui şir de date aparțin mulțimii numerelor 
întregi sau raționale atunci se defineşte o variabilă aleatoare discretă, iar în cazul 
aparteneţei valorilor la mulțimea numerelor reale se defineşte o variabilă 
aleatoare continuă. 


2.1. Variabile aleatoare discrete 


În ciuda faptului că după repetarea unui experiment de un număr mare 
de ori intervine o anumită regularitate în privința apariţiei unor rezultate ale 
acestuia, nu se poate preciza niciodată cu certitudine care anume dintre rezultate 
va apare într-o anumită probă. Din acest motiv cuvântul sau conceptul „aleator” 
trebuie înțeles sau gândit în sensul că avem de-a face cu experimente sau 
fenomene care sunt guvernate de legi statistice (atunci când există un anumit 
grad de incertitudine privind apariţia unui rezultat sau reapariţia lui) şi nu de legi 
deterministe (când ştim cu certitudine ce rezultat va apare sau nu). Pentru ca 
astfel de experimente sau fenomene să fie cunoscute şi prin urmare studiate, sunt 
importante şi necesare două lucruri şi anume: 

1. rezultatele posibile ale experimentului, care pot constitui o mulțime 
finită, infinită sau numărabilă sau infinită şi nenumărabilă; 

2. legea statistică sau probabilitățile cu care este posibilă apariția 
rezultatelor experimentului considerat. 

În linii mari şi într-un înțeles mai larg, o mărime care ia valori la 
întâmplare sau aleatoriu dintr-o mulțime oarecare posibilă se numeşte variabilă 
aleatoare (sau întâmplătoare). Se poate da şi o definiție riguroasă. 
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Definiţia 2.1.1. Fie câmpul de probabilitate 79, K, P7. Numim variabilă 
aleatoare de tip discret o aplicaţie X : O —R care verifică condiţiile: 

i) are o mulțime cel mult numărabilă de valori; 

ii) VxeR (X=x)eK 


Observaţia 2.1.2. 

1) Dacă K = P(O) atunci ii) este automat îndeplinită; 

2) O variabilă aleatoare de tip discret este deci o funcție univocă de 
forma 

X:0— 7xl, X2, ... Xn, A CR; 

3) Se obişnuieşte ca valorile variabilei să se noteze în ordine 


Y 


crescătoare adică XI S X2 S Kai: Xa Sai xi ER,i= 1,2... 

4) Evenimentele Ai = X-1(xi) = joe 0 /X(w) = xi pe K, oricare ar fi i 
=>] 23 at 

X-1 : (X1, X2, ... XN, ...3 — K este inversa funcției X. 


Definiţia 2.1.3. Numim distribuţia sau repartiția variabilei aleatoare X de tip 


discret, tabloul de forma X : *) unde xi, i e I,sunt valorile posibile ale 
Pi Jier 

variabilei aleatoare X iar pi este probabilitatea cu care variabila considerată X 
ia valoarea xi , adică pi = P(X = xi ), 41 mulțimea 1 putând fi finită sau cel 
mult numărabilă. 


Observaţia 2.1.4. 

1) Evenimentele (X = xi ), i €I formează un sistem complet de 
evenimente şi Sp, =]. 

iel 

2) Variabila aleatoare pentru care mulțimea valorilor este un interval 
finit sau infinit pe axa numerelor reale este variabilă aleatoare continuă. 

3) Forma cea mai generală a unei variabile aleatoare aparținând unei 
clase de variabile aleatoare de tip discret se numeşte lege de probabilitate 
discretă. 


Definiţia 2.1.5. Spunem că variabilele aleatoare X şi Y care au respectiv 
X; 3 EA J i > 

şi Y sunt independente dacă 
i Jiel 4; jeJ 


distribuțiile X | 
p 


PA =xi, Y=yj) = PA = xi) PY =yj), Vhe Dl. 
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Definiţia 2.1.6. Fie variabilele aleatoare X, Y care au respectiv distribuțiile 


X, Y; 
X | i şi Y | 3 atunci variabila aleatoare sumă X+Y, produs X:Y şi cât 
p; iel 

ie jeJ 


4; 


XI CTE e 
pa (dacă y;z0,vjeJ) vor avea distribuțiile X+Y ; 
(î,j)elJ 


Pi 
X.Y; 
X-Y X: 
P; RE 2 X îi A 3 
Dell, respectiv 5 Yj unde pij = P(X = xi, Y = yj) 
Pi (pen 
(jel. 


Definiţia 2.1.7. Se numeşte 
a) produs al variabilei aleatoare X prin constanta reală a, variabila 


AX, 
aleatoare notată prin aă : | ) 
Pi iel 


b) sumă a variabilei aleatoare X cu constanta reală a, variabila 


U E a+ X; 
aleatoare notată prin a+ X : 
Pi iel 


c) putere a variabilei aleatoare X de exponent k, k e Z , variabila 
k 


x; d a : i a te 

aleatoare X* | i cu condiția ca operaţiile xi, ie I să aibă 
P; iel 

sens. 


Observaţia 2.1.8. Au Joc relațiile 5, =p,viel şi DB =q;VjeJ. 


jeJ iel 


Dacă variabilele X, Y sunt independente atunci p, = psq VU, j)elxJ 


Definiţia 2.1.9. Fie /O, K, P/ un câmp de probabilitate, iar X: O > Ro 
variabilă aleatoare. Numim funcţie de repartiție ataşată variabilei aleatoare X 
funcția F : R — [0, 1], definită prin F(X) = P(X <x), VxeR, adică 
F)= SV pixeR. 

Dacă nu există pericol de confuzie, funcția de repartiție a variabilei 
aleatoare X se notează prin FE. 


Propoziția 2.1.10. (proprietăţi ale funcţiei de repartiție) 
1. Va,beR, a<b avem: 
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P(a< X <b)=F(b)-P(X =b)-F(a)+P(X = a) 
P(a <X <b)=F(b)-F(a)-PUX =b) 

P(a <X <b)=F(b)-F(a) 

P(a< X <b)=F(b)-F(a)+ P(X = a) 


Demonstraţie 
Avem succesiv 


P(a< X <b)= P(X <b,X <a)= PX <b)-(X <a)]= 
= P(X <b)-P(X <a) = F(b)-P(X =b)-F(a)+ P(X =a) 
dacă s-a ținut seama de relația (X <a)c(X <b) şi s-a folosit probabilitatea 
diferenței. 
P(a< X <b)= Pl(a < X <b)-(X =a)]= P(a <X <b)- PX = a)= 
= F(b)-P(X =b)-F(a)+ P(X = a)- PU = a) = F(b)- P(X =b)-F(a) 
dacă s-a folosit relația demonstrată anterior. 
2. F este nedescrescătoare pe R, 


adică V xx, eR, x <x, F(x) F(x) 


Demonstraţie 
0< P(x, <XSy,) = PX) F(x) F(x) Fo) 


3. lim F(x) =0,limF(x)=1 


Demonstraţie 
lim F(x) = lim P(X <x)= P(0)=0 


D i due) 


lim F(x) = lim PX <x) = P(B)=1 


X—+ 
4. vx eR,F(x—a) = F(x) (F este continuă la stânga în fiecare punct 
xeR) 


Exemplul 2.1.11. Se consideră variabila aleatoare discretă 


P 4P 35 
sau egală cu 3? 


|, 2 sa 4 
X | 27 l ] Care este probabilitatea ca X să ia o valoare mai mică 


Rezolvare 
Pentru ca X să fie o variabilă aleatoare trebuie ca p>0 


l 
şip” zi q4 -pP+ 3 A G = 1. Se obţine soluţia acceptabilă p= ia Se calculează 


30 


probabilitatea cerută prin intermediul evenimentului contrar şi anume 


PX s3)=1-2(X=4)=1-=2 sau 


It A e Pa 
P(X < 3) =P(X=D+P(X=2)+P(X=3)=—+—+2=>. 
(DS) e BOR) RD e 0 ez) ea e 


Exemplul 2.1.12. Se dau variabilele aleatoare independente: 
—1 () l —1 0 l 
Ă Pal Î 
ce IRI aepte TR PS e IE INI e 


a) Să se scrie distribuția variabilei 2XY. 


2 
b) Pentru ce valori ale lui c avem: P(XX+ Y =c) > î 


Rezolvare 
Pentru ca X şi Y să fie variabile aleatoare se impun condiţiile: 
l 1 1 
p+—+q9+—+-—=1 
l l A ; 6 Îi 3 Y : 
p+ F > 0;q+ 3 > 0;2p—q20 şiapoi: „ rezultă valorile 


3 2p-q+12p' =] 


acceptabile p = A şi q = 0. Deci variabilele aleatoare au repartițiile: 


-1 01 -1 01 
See Lo e eee IL le Avere 
e = Ie. 3 1-3. 3 


—-2 0 2 
a) 2XY:| 2 5 2 
9 


9 9 
—-2 -1 0 1 2 P) 
b) X+Y:| 1 2 3 2 1|, deci PX + Y = c)>2 corespunde 
9 9 999 
e a ră Di ID a cura 
situaţiei PX + Y = 0)= ara adică c=0. 


Exemplul 2.1.13. Variabila aleatoare X cu distribuția următoare: 
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1 
0,dacă x <—, 


1 
E 2 —,dacă—<x<|, 
„are funcţia de repartiție: F(x) = P(X < x) =36 2 


În “2 
ANRE: 
2 3 


Graficul funcției de repartiție este: 


N|L=R|= 


2 
—,dacă l <x <2, 
3 


1, dacă x > 2 


2.2. Vector aleator bidimensional 


Definiţia 2.2.1. Fie câmpul de probabilitate 192, K, P?. Spunem că U=(X, Y) este 
vector aleator bidimensional de tip discret dacă aplicația U : 2 > R? verifică 
condiţiile: 

i) are o mulțime cel mult numărabilă de valori; 

ii) VG,y)eR",(X=x,Y=y)eK. 


Definiţia 2.2.2. Numim distribuția sau repartiția vectorului aleator (X,Y) de tip 
discret tabloul: 


unde (x;,y;) sunt valorile 


pe care le ia vectorul aleator 
(XV), iar 
Ps = PX =x,,Y=y,). 


Evident dp =]. 


(î,j)erxJ 


Definiţia 2.2.3. Numim funcție de repartiție ataşată vectorului aleator 
bidimensional funcția F: R? > [0,1], definită prin: 
Fy) = PX<x, Y<y), va,y)eR?. 


Propoziția 2.2.4.(proprietăţile funcţiei de repartiție a unui vector aleator 
bidimensional de tip discret) 
1. dacă a<b şi c<d, atunci 
P(a<XĂ <b,c<Y<d)=F(b,d)-F(a,c). 
2. F(x,y) este nedescrescătoare în raport cu fiecare argument. 
3. lim F(x,y)= lim F(x,y) = lim F(x,y)=0; limF(x,y)=l. 
x——0 y=—0 x——00 x—%0 
y——00 y=o 


4. F(x,y) este continuă la stânga în raport cu fiecare argument. 


Observaţia 2.2.5. Dacă (X,Y) are funcția de repartiție F, iar variabilele X şi Y 
au funcţiile de repartiție Fy şi respectiv F;, atunci: 
Rp (00) > Ir PG, 7). şi E(3) > Imn P(x, 3): 


Exemplul 2.2.6. Se consideră vectorul aleator discret (X, Y) cu repartiția dată în 
tabelul: 


a) să se determine repartiția variabilelor X, Y, X+Y; 
b) să se stabilească dacă X şi Y sunt independente sau nu; 


Cc) să se calculeze F 7-5) 


Rezolvare 
a) Variabila X are repartiția: 
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unde p, = pu + px =0,05+0,15 = 0,20, adică 
P3 = Ps tPp = 0,45+ 0,05 = 0,50 


| 13 4 Pi = Pui + Po =0,20+ 0,10 = 0,30 
Ă 2 


Pp-p 


l 3 4 
X: : 
fi 0,20 a 


2 6 
Analog, variabila Y are repartiția Y: , i „unde 
1 2 


9, = Pui Pa * Pa =0,20+ 0,05 + 0,45 = 0,70 ic 2 6 
„ adică Y: 
9» = Po +Px» +Px =0,10+0,15+0,05 = 0,30 


0,20 0,05 0,45 0,10 0,15 0,05 


b) Pentru verificarea independenţei variabilelor X,Y, efectuăm un 
control, de exemplu: 

P(X=1) P(Y=2) = 0,30.-0,70 = 0,21, iar P[(X=1)n(Y=2)] = p,, = 0,20. 
Cum 0,21 7 0,20, deducem că X şi Y sunt dependente. 


c) (2,5) = PO S2,Y < 5) PUT = = DU 3,7 =2]= 


4 6 7 8 10 
Avem: X+Y: A 


=P(X=1,Y=2) +P(X=3,Y=2) = 0,20+0,05 = 0,25. 


Definiţia 2.2.7. Fie variabila aleatoare X având funcţia de repartiție F, vom 
spune că X este variabilă aleatoare de tip continuu dacă funcţia de repartiție se 
poate reprezenta sub forma: 


Fe) = | “p(odt, VxeR. 
Funcţia p:R—R se numeşte densitate de probabilitate a variabilei 
aleatoare X. 


Propoziția 2.2.8. 4u loc afirmaţiile: 
I) Yx eR, p(x)>0. 
2) F'o) = p(x)ap.t pe R. 
3) P(a<X<b) = | pda. 


4) [| p(x)dx =1. 
Observaţia 2.2.9. 

1. Pentru o variabilă de tip continuu P(X=a)= 0, deci P(a<X<b) = 
P(a<X<b) = P(a< X <b) = P(a<X<b) = | pooax. 
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2 silita Făt Ale) (iti af e 0) adi 
Ax50 Ax 


Ax Ax—0 
când Ax este mic avem P(x < X < x + Ax) = p(x)- Ax. 


Definiţia 2.2.10. Fie vectorul aleator (X,Y) având funcția de repartiție F, 
spunem că (X, Y) este un vector aleator de tip continuu, dacă funcţia de repartiție 
F se poate pune sub forma: 


F(x,y) = [.] „pe t) ds dt, V(x,y)eR?, iar funcția p:R' —>R se 


numeşte densitate de probabilitate a vectorului aleator (X,Y). 


Observaţia 2.2.11. Dacă p este densitate de probabilitate pentru (X,Y), iar 
Px şi Py densități de probabilitate pentru X, respectiv Y au loc: 
I) p(x,y) 20 „V(x,y)eR?. 

O F(x,y) 
Ox0y 
3) P((X,Y)e D) = [ps dx dy, D eR.. 

D 


2) = p(x,y) apt. pe R?. 
4) [pe dx-dy=1. 


5) px) = | „po vay, vxeR; pr(5)= | „pa, weR. 


Definiţia 2.2.12. Spunem că variabilele aleatoare de tip continuu X şi Y sunt 
independente dacă F(x,y) = F(x)-F(y), v,y)eR”. 


xy”, (x,y) e [l.2]x 3] 


0,  înrest 


Aplicația 2.2.13. Funcţia p(x,y) -( este densitate de 


probabilitate dacă  p(x,y)>0 şi [| pc aav=1 ceea ce implică 
R2 


l 
ecuația în k, ef | xy'dxdy = 1, verificată pentru k = ia. 


În acest caz funcția de repartiție va fi 


0) „dacă x<l sau y<l 
- (32 —D(9—D „dacă (x,y)e [L2]x +3] 

F(x, y)= | | a auav = 0 —1) „dacă ye [13] şi x>2 
Lo — 1) „dacă ye [1,2] şi y>3 
l „dacă x>2 şi y>3 
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şi deducem de asemenea că funcţiile de repartiție marginale sunt, respectiv, 


0 „x<l 0 „y<l 
1 1 

F(x) = -D „x e[l2] : r,O)= ze -D „y e [L3] 
l „x>2 l „y>3 


2.3. Caracteristici numerice asociate variabilelor aleatoare 


Fie !0,K,P! un câmp de probabilitate şi X:0—>Ro variabilă 
aleatoare. În afara informaţiilor furnizate de funcția de repartiție F(x) sau chiar 
de repartiția probabilistă (discretă (p,) sau continuă (p(x)) ale unei variabile 


Li 
aleatoare X, de un real folos teoretic şi practic sunt şi informaţiile pe care le 
conțin anumite caracteristici numerice (valoarea medie, dispersia, abaterea medie 
pătratică sau diverse alte momente) ale lui X despre această variabilă aleatoare. 


Valoarea medie (speranţa matematică) 


Definiţia 2.3.1. Fie O, K, P7 un câmp borelian de probabilitate şi variabila 
X; 


aleatoare X : 2 — R cu distribuţia X! | 
P; 


) ie 1. Se numeşte valoare medie, 
[i 


caracteristica numerică E(X) = Pa: În a 
iel 
Observaţia 2.3.2. 
1) Dacă 1 este finită, valoarea medie există. 
2) Dacă I este infinit numărabilă, E(X) există când seria care o 
defineşte este absolut convergentă. 


Definiţia 2.3.3. Fie/O, K, P7 un câmp borelian de probabilitate şi variabila 


x 
aleatoare X : 2 — R de tip continuu X 9] xeR. Se numeşte valoarea 
p(x 


medie a variabilei X, caracteristica numerică E(X)= | x p(x)dx. Valoarea 
medie există atunci când integrala improprie care o defineşte este convergentă. 
Propoziția 2.3.4.(proprietăţile valorii medii) 4u Joc afirmațiile : 

ID E(aX+b)=a E(X)+b,Va,beR 

2) E(X+ V) = E(A) + E(Y) 

3) X,Y independente > E(X Y) = E(X) E(Y) 


Demonstraţie 
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a) Fie variabilele aleatoare de tip discret X, Y având repartițiile 


E și i 
Pb; iel 4) jeJ 


|. Avem E(aX +b)=> (ax, +b)p; =) Ap, +. bp, =aE(X)+b 


iel iel iel 


ax, +b 
dacă variabila aX + b are repartiția aX | i şi XE p, >. 
Pi iel 


iel 


= ici i X +; 
2. Vanabila  X+Y are repartiția X+Y ; 
Pi (,jerxJ 
Pi = P(Ă =x,Y=y,) 
Rezultă 
EX +) 3 + 9)pu = Xp IV Ps = 
iel jeJ iel jeJ iel jeJ 
= Xa pi + ya > EQO+ EX) 
iel jeJ 
dacă s-au folosit relaţiile >. p, =, şi > p, =, 
iel jeJ 
iazul mă xy; S, A 
3. Variabila XY are repartiția XY dacă X şi Y sunt 
pd) (pers 
independente. 
Avem E(XY) = 2,2,x,9, pia, > Dup: 29, > EODEU) 
iel jeJ iel jeJ 


b) Presupunem ca X şi Y sunt variabile aleatoare de tip continuu. 
1. Dacă notăm prin Y =aX + b,az0, atunci se obţine că 


Pedala) 
X 
p,(%)= Sp pentru orice x e R. 


Avem: E(aăX +b)= E(Y) = Îxo, (x)dx = mer Das de unde prin 
schimbarea de variabilă u = îi — b)/a, dx = ari, obținem 
E(aăX +b) = Îcau + b)p (u)du a [up (u)du ip, (u)du = aE(X)+b 
2. Dacă “dia prin Z = x Ei Y, aiabilă care are densitatea de 
probabilitate p,, iar densitatea de probabilitate a vectorului (X, Y) o notăm prin 


p, atunci: 
E(X+Y)=E(Z)= Îsp, (x0)dx = pusa —u)du)dx 
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Schimbăm ordinea de integrare, apoi schimbarea de variabilă 
X—u =, dx = dt, şi obţinem 


E(ĂX+Y)= Î plus — u)dx)du = [da +u)p(u,t)dr)du = 


= = În [atu Ddu)dt + Î u( | p(u,t)dodu = j 2p (0dt + Î up, (u)du = EY)+ EX) 


3. Dacă notăm prin V =X Y, care are dia înteă de probabilitate p, , iar 
densitatea de probabilitate a vectorului (X, Y) o notam a p „atunci 


+00 


EU) = EV) = prova = | j pl Dna 


Schimbăm ordinea de integrare, apoi sicein dul ee de variabilă 
x /u =, dx = udt, şi obţinem: 


EQT) = ij di pl: )do)du = [uptu: nana = 


-FOO +00 


= | [ups pu (oardu = Îupu (du Îzp, (dr = E(X)EY) 


—00—00 —90 —00 
Dispersia 


Definiţia 2.3.5. Fie /O, K, P; un câmp borelian de probabilitate şi variabila 
aleatoare X : O — R. Se numeşte dispersia (varianţa) variabilei aleatoare X, 


caracteristica numerică  Var(Ă) = E (c —E(X )y | iar o(X)=-JVar(X) se 
numeşte abatere medie pătratică. 


În mod explicit, dispersia are expresia Var(X) = Se (4, —E(X )> -p;> 
iel 
IC N , dacă X este o variabilă aleatoare discretă sau 
Var(X) = [a —M(X )> p(x)dx, dacă X este o variabilă aleatoare 
R 


continuă. 
Dispersia este un indicator numeric al gradului de împrăştiere (sau de 
dispersare) a valorilor unei variabile aleatoare în jurul valorii medii a acesteia. 


Propoziția 2.3.6.(proprietăţile dispersiei) 
a) Var(X) = EX?) -EOOP 
b) Var(aX + b) = a"Var(X), Va,b eR 
c) X,Y independente > Var(X + Y) = Var(X) + Var Y) 


Demonstraţie 
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y aro = Er - ECO) |= pl? -2£200x +(£00) | 
= EU?) 2E00)EUO) + [ECOŢ = OC) -LEOOŢ 


dacă s-a făcut un calcul formal. 
b) Folosind proprietățile valorii medii şi definiţia dispersiei avem: 


Var(aX +b) = E](ax + b- aE00-b)]= Ela ( - E00)|= 
= Ex — E) |= a*Var(X) 
c) Dacă X, Y sunt independente avem E(XY) = E(X)E(Y). Calculăm 
Var(X + Y) = Ele + - Ec +) ]= Ele - p00)+ (= 2) |= 
= Er - 200) +(r- 20) +20 - 200) - ED) 
= Ea - 200] elor - po) +2 - poo)er-2)= 
= Var(X) + Var(Y) 
dacă s-a ținut seama că E(X — £(X))=0 


Propoziția 2.3.7.(Inegalitatea lui Cebîşev) Dacă variabila aleatoare X are 
valoare medie şi dispersie atunci  Ve>0 are loc inegalitatea 


P(X — ECO) < 2)21- alde ) 


inegalitatea echivalentă cu aceasta 


P(X — EU) > 0) cs , 


Demonstraţie 
Presupunem că X este o variabilă aleatoare de tip continuu, având 
densitatea de probabilitate p(x). Atunci 
Vară) = = EQ) poa | — EQ) pod 

unde D= (x ECO) > 6, deoarece = BOY) >, avem că (x—E(X)) ze. 
Deci, avem 

] (x — EQ) p(oo)dx 2 5? ] p(ac)dx = e P(|X — EO0)> 2) 

D D 
Am obţinut că Var(X) > 2*P(X — E(X)|> 2), rezultă 

g? 

Folosind probabilitatea evenimentului contrar se obţine şi cealaltă formă a 


inegalității: PX — E(X)|< 2) =1- P(|X — EO0)|> 5) >1- Lat) 
£ 
Aplicația 2.3.8. Dacă X este o variabilă aleatoare discretă 
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De ar În 222 3 
XC a 2 9 A dl 


12 12 12 12 12 12 
atunci deducem că: 


FO posede ați 30). Zap app tel ata 
JOE 7 0 e a SA 9 

PD td up 240) ai ape 
Aba stiai A te e St 


Var(X) = E(X?)-EOOŢ = 2-2 = 


o(X) =Var(X) = 7 


2 
Aplicația 2.3.9. Dacă X este variabilă aleatoare continuă 


x 
| A ) poz Xe lel 
pu) 0, în rest 


atunci deducem că: 


3 
_ fi SE ju: IA SE 
PUD) leat) 27) = EU ya pbae= 33| = 
169 _11 
Var(X) = E(X?)-[EODŢ =5--—=— 
ici at cdi a i 3636 


o(X) = yVar(X) = a 


Momente 


Definiţia 2.3.10. Fie 70, K, P7 un câmp borelian de probabilitate şi variabila 
aleatoare X : 2 — R. Se numeşte moment iniţial (obişnuit) de ordin k al 
variabilei aleatoare X, caracteristica numerică m, = E(X*) 


Observaţia  2.3.11. a) Pentru k=] avem m; =E(X)iar pentru k=2, 
Var(X) = m, —m; 


X. 
b) Dacă X este variabilă de tip discret având repartiția X [ ] ; 
iel 


Sp, = 1 atunci m, = Pip 


iel iel 
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a 
c) Dacă X este variabilă de tip continuu X | atunci 
P xeR 


m, = [> pla 


R 


Definiţia 2.3.12. Se numeşte moment centrat de ordin k al variabilei aleatoare 
X, caracteristica numerică vu, = E (xx —E(X DA adică 

5 (x, = EU) -p,; „ X discretă 

iel 

[a — E(X)) p(a)d „X continuă 


R 


Ha > 


Observaţia 2.3.13. Pentru k=] avem n, = 0, iar pentru k=2, vu, = Var(X) 


Teorema 2.3.14. Între momentele centrate şi momentele inițiale există 
k 
următoarea relaţie: u, = SD'Cimi_imi i 
i=0 
Demonstraţie 
Avem 


u, = Elo = E0OY = Elor-m) | 5 (8.5 dau em) = 


k k k 
= 5 -D ciic*"mj| = CD CEI" mi = CD Cimimi 
i=0 i=0 


i=0 


Observaţia 2.3.15. În statistica matematică se utilizează de regulă primele patru 
momente centrate: n, H3sHa: 
Definiţia 2.3.16. Se numeşte momentul inițial de ordinul (r,s) al vectorului 
aleator (X, Y) caracteristica numerică m, = E(X'Y"), adică 

DX xp „(X,Y) discret 


iel jeJ 


41) = 
i [> »"p(x,y)dxdy  „(X, Y) continuu 
R2 


Definiţia 2.3.17. Se numeşte moment centrat de ordin (r,s) al vectorului aleator 
(X, V), caracteristica numerică 
ui = EU — EOD'Y E) |, adică 


4l 


SS (e —E0DY bb, 2) o, „(X,Y) discret 


iel jeJ 


Pg [| (x 25 E(X)) (y = EY)) p(x, y)dxdy  „(X, Y) continuu 


Observaţia 2.3.18. 
m = E(Ă), mo = EYP), nao = Var(Ă), noa = Var) 


Corelaţie sau covarianţă 


Definiţia 2.3.19. Se numeşte corelația sau covarianța variabilelor aleatoare X şi 
Y, caracteristica numerică 
CX, Y) = EU — EOOĂY — E) adică CX, Y) = au, 


Observaţia 2.3.20. 
1) C(X,Y) = E(ĂY)— E(A)EY), CX, Y) = mu — mom, 
Dacă X, Y independente = C(X, Y) = 0, dar nu şi reciproc. 
C(X, A) =Var(X) 


5 aa) E Satele.) oricare ar fi variabilele 
i=1 j=1 


i=1 j=1 
aleatoare X; şi Y; şi oricare ar fi constantele reale a; şi b;, |<i<m,l< j n 
C(X,Y) = C(Y,X), oricare ar fi X şi Y. 


Definiţia 2.3.21. Se numeşte coeficient de corelaţie relativ la variabilele 
aleatoare X şi Y caracteristica numerică 
r(X, > CD) 
AJVar (4) Var (Y) 


Observaţia 2.3.22. 
1) X, Y independente > T(X, Y) = 0 reciproc nu este adevărat; 


2) Spunem că X, Y sunt necorelate dacă r(X, Y) =0 
Proprietăți: 

a) |r(X, v)<1 

b) r(X,Y)=+1oY=aX+b,a>0 
Cr(X,Y)=-loY=aX+ba<0 


Observaţia 2.3.23. În practică se mai spune că: 
1) X şi Y sunt pozitiv perfect corelate dacă r(X,Y)=1; 
2) X şi Y sunt negativ perfect corelate dacă r(X,Y)=-—l,; 
3) X şi Y sunt puternic pozitiv (sau negativ) corelate dacă 
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0,75 <r(X,Y)<1 (sau —1<r(X,Y)<—0,75); 
4) X şi Y sunt slab pozitiv (sau negativ) corelate dacă 0 < r(X,Y) < 0,25 
(sau —0,25<r(X,Y)<0); 
Marginile valorice decizionale fiind alese convenţional. 


Aplicația 2.3.24. Fie (X,Y) un vector aleator discret a cărui repartiție 
probabilistă este dată de tabelul de mai jos. 
Calculaţi coeficientul de corelație r(X, V). 
x % -l 9) l 2 pi 
-l 1/6 | 1/12 | 1/12 | 1/24 | 9/24 
9) 1/24 | 1/6 | 1/12 | 1/24 | 8/24 
| 1/24 | 1/24 | 1/6 | 1/24 | 7/24 
qj 6/24 | 7/24 | 8/24 | 3/24 | 1 


Rezolvare 


Pe baza formulelor corespunzătoare, deducem imediat: 
DL, E IER AL 20 0 LE Daca 
24 24 24 24 12 
E(X2)=1 08 je înece esa 

24 24 24 24 3 


2 1 9% 
Var(X) = E(X?)-LEQOI = = 
ar(ă) = EX )-LEGA)I aa 144 
Pet 00 aie dee = AI, 


DA DA DA A DA. a 
Da Di 04 04 04 e 
Îi 435 
Var(Y) = EYD-[EODȚ = >= 
Y) = EY )-LEUY)I Isa 


E(XY) = —l: Îi sepet +0. În ce ele ou feal | 
6 12 12 24 24 6 12 24 


0 8 LR Rae a N MR 
24 24 6 24 24 


Se murale Al 
C(X,Y) = ET) EODEV) = + = 2 
(00) >); aa CO) (0) Za aa 5 
17 
o ei 535 
AVar(X War Y) [95 35 
144 36 
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Observaţia 2.3.25. Coeficientul de corelaţie r(X,Y) reprezintă prima măsură a 
corelației sau gradului de dependenţă în sens clasic. Introdusă de către 
statisticianul englez K. Pearson în anul 1901 ca rod al colaborării acestuia cu 
antropologul englez F. Galton (care a avut prima idee de măsurare a corelaţiei 
sub denumirea de variaţie legată), această măsură a gradului de dependenţă a 
fost criticată încă de la apariţiei ei pentru diverse motive, printre care şi aceea 
că: 

1) este dependentă de valorile vectorului aleator (X,Y) şi ca urmare nu 
este aplicabilă pentru cazul variabilelor aleatoare necantitative; 

2) nu este precisă în cazul independenţei şi al necorelării deoarece 
dacă r(X,Y)=0nu există un răspuns categoric (în sensul 
independenţei sau necorelării); 

3) nu poate fi extinsă la mai mult de două variabile aleatoare sau chiar 
la doi sau mai mulți vectori aleatori, fapte cerute de practică. 

Dacă la prima obiecţie a dat chiar K. Pearson un răspuns, pentru 
celelalte două obiecții nu s-au dat răspunsuri clare decât după apariția în 1948 
a teoriei matematice a informaţiei, rezultate remarcabile în acest sens obținând 
şcoala românească de matematică sub conducerea lui Silviu Guiaşu introducând 
măsurile entropice ale dependenţei dintre variabile aleatoare şi vectori aleatori 
(în anii 1974-1978) cu o largă aplicabilitate teoretică şi practică. 

În ciuda tuturor criticilor ce i s-au adus, coeficientul de corelaţie clasic 
(sau coeficientul Galton-Pearson) este cel mai frecvent utilizat în practică şi, 
pentru că este cel mai simplu în utilizare. 


Definiţia 2.3.26. Fiind dat vectorul aleator Z = (XX... X,) Z:ER", se 
numeşte valoare medie a acestuia şi se notează cu E(Z), dacă există, vectorul 
n-dimensional ale cărui componente sunt valorile medii ale componentelor lui Z 
adică: 
EL) B(O0 5 Napa ) AC BUL a, B(OE)), 
Se numeşte matrice de covarianță (sau de corelaţie) a vectorului Z şi se 
notează prin C(Z), dacă există, matricea C(Z) = (e, ia = (c (x, placa 


n 
j>=ln 


Observaţia 2.3.27. 
a) Pentru cazul unui vector aleator bidimensional, a nu se face confuzie 
între media produsului componentelor X şi Y, care este E(XY)şi 


media vectorului (X,Y) care este E(X,Y). 
b) Uneori matricea de corelaţie C(Z) se mai notează şi cu I(Z). 
c) Desfăşurat matricea de covarianță C(Z) are forma: 
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Var(X,) (Ass As) pes SOC 20) 

(2) = C(X,,X,) Vară) n. CĂ,,Ă,) 
CX) CX Ă) . Var(ă,) 

şi ca urmare a proprietăţilor corelaţiei, constatăm că matricea C(Z) este 

simetrică. 

d) Pornind de la definiţia coeficientului de corelaţie şi de la matricea 
de corelaţie, dacă toate componentele lui Z sunt neconstante, atunci 
putem introduce matricea coeficienţilor de corelație R(Z) a cărei 
formă dezvoltată este: 

l FA ao) “aa Plai) 
r(X.Ă l a rĂĂ 
R(Z) E ( 2 ) ( 2 -) 
F(A AD T(AA) l 


Ambele forme ale matricei de corelație a vectorului aleatoriu Z 
reprezintă de fapt tabele ale măsurării gradului de dependență dintre 
componentele lui Z, considerate două câte două. 


Aplicația 2.3.28. Fie variabilele aleatoare: 


—1 1 1 3 2 4 
X: X: Fe, (e 
PP 4 4 Hh 


a căror repartiție comună notată (p;), |<i,j,k <2, este: 


] ] ] 3 
Piu > 16 » Pip > 16 Pra > 32 Pio > 32 , 

] ] ] 5 
Pau mi Po Sare Pi 16: Po» "6: 


Să se determine repartițiile bidimensionale şi unidimensionale ale 
vectorului aleator tridimensional Z =(X,X,,X,) şi matricele de corelaţie 
C(Z) şi R(Z). 

Rezolvare 
Avem imediat repartiţiile bidimensionale 


] ] 
Pue > Piu t Pa > 3 Poe > Pra t Pio > 3 
3 : 3 pentru (7,4) 
Poe > Piu t Pop > 3 Poe > Pot Po > 3 
Pie > Piu Ft Pau . Pio = P Pio = Ă 
lei O Vill 121. A: le2 > Hi2 1 Hi2 o 3A 
i - pentru (4) 
Poe > Pau * Po > 16 Poe > Pon t Po > 16 
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3 5 


Pau > Piu t Pu ST Por > Piu t Po = 23 
10 ; c pentru (A) 
Pen > Pra t Pra > 32 Pen > Po t Pam > 32 
şi ca urmare putem scrie următoarele tabele de repartiție bidimensionale: 
XX i X3 i X3 i 
x, l 3 pi x, 2 4 Pi x, 2 4 qi 


-1 | 1/8 [1/8 | 4 -1 [3/32 | 5/32 | 1/4 1 [3/16] 5/16 |1/2 
1 [3/8 | 3/8 | %4 1 [3/16 [9/16 | 3/4 3 ]3/32 [13/32|1/2 
e FER |N e 8 | 2 20 | Tk 9/32 |23/32| 1 Tk 9/32 [21/32] 1 


din care se observă şi repartițiile unidimensionale (repartiţiile variabilelor 
aleatoare considerate X,, X2, X3). Din aceste tabele deducem prin calcul imediat: 


| 3 
EX) 2 BA le Var(X)= 


E(X,)=2; E(X3)=5; Var(X,)>l 


EU) = 2; BUD) = 20; Var) = 2 
EX: X2) = ECĂ DEA) = 1; CĂ, Ă2) =0; ră, Ă-)=0 
BO: PRO )EUE) = 55 CUR) Zeit) = pia 042 
BX) E: EDEA) =: 
16 8 
de, a HI) = D021 
16 207 
şi ca urmare putem scrie matricele de corelaţie: 
3/4 0 3/32 1 0 012 
CZ)=| o 1 316 |şiR(Z)=| 0 1 021 
3/32. 3/16 207/256 0l2 021 1 


constatând că X, şi X> sunt independente în timp ce între X3 şi X, sau X3 şi X> 
există o anumită dependenţă chiar dacă nu este puternică. 


Alte caracteristici numerice 


Definiţia 2.3.29. Se numeşte mediana unei variabile aleatoare X, caracteristica 
numerică M, care verifică relația: 


PU > M > s PX SM) 
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Observaţia 2.3.30. /. Dacă F este funcția de repartiție şi este continuă atunci 
n ci i | 
M , se determină din ecuaţia F(M.) = 73 
a+b 


2. Dacă M, e (a,b]atunci se ia M, = 


Definiţia 2.3.31. Se numeşte valoare modală sau modul a variabilei aleatoare X 
orice punct de maxim local al distribuţiei lui X (în cazul discret) respectiv al 
densităţii de probabilitate (în cazul continuu). 


Observaţia 2.3.32. Dacă există un singur punct de maxim local spunem că legea 
lui X este unimodală altfel o numim plurimodală. 


Definiţia 2.3.33. Se numeşte asimetria (coeficientul lui Fischer) variabilei 


aleatoare X caracteristica numerică definită prin s = E, 
o 


Definiţia 2.3.34. Se numeşte exces al variabilei aleatoare X, caracteristica 


AR SI IN H 
numerică definită prin e = — —3, 
o 


Observaţia 2.3.35. 

1) Dacă e<0 atunci graficul distribuţiei are un aspect turtit şi legea se 
numeşte platicurtică. 

2) Dacă e>0 atunci graficul distribuţiei are un aspect ascuţit şi legea va 
fi numită leptocurtică. 

3) Dacă e = 0 atunci repartiţiile sunt mezocurtice. 


Definiţia 2.3.36. Dacă X este o variabilă aleatoare cu funcţia de repartiție 
F(x), se numesc cuartile (în număr de trei) ale lui X (sau ale repartiţiei lui X) 


numerele q,, d, şi q cu proprietățile: 
l l 3 
AC ear Fps Cer 
l l 
(at 05a Ri(g0) Ei Fa, +0)>2 


Observăm că q, = M,. 


—-1 0 2 
Exemplul 2.3.37. Se consideră variabila aleatoare X.: 
0,2 043 0,5 


Să se calculeze: E(X), E(3ă), E(4X-2), Var(X), o. 
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Rezolvare 


3 
EX) = xp, =-1:02+0-03+2-0,5=0,8 
i=l 


E(3X) =3£(90) = 3:08 =3,4; E(4X —2) =4E(90) —2 =4-0,8—2 =12 
Var(X) = EU?) |EQOD| = 2,2 —0,64= 1,56; 
E(X2) = (012 -0,2+ 02.0,3+22.0,5=22; ox =xVar(X) = 1,56 = 1,24 


Exemplul 2.3.38. Să se calculeze valoarea medie şi dispersia variabilei 
aleatoare care are densitatea de probabilitate 


1 —|L- x], dacă x e (0,2) 
p(x) = 
0, altfel 


Rezolvare 
x, dacă 0<x<l 
Observăm că: p(x)=12-x,dacăl<x<2 
0, altfel 


Ținând seama de definiţie avem: 


3 
EUOO)= |. x pod = |, ct + |, x —ar= [ei ja | 2 =] 
oo 1 2 x? x3 A 7 
EU?)= | podar= |, var | *Q0-a= 7 E . [3 A | ja 
Var(X) = EX?) ECO 1 


Exemplul 2.3.39. Fie vectorul aleator (X,Y) cu densitatea de probabilitate 
k(x + y+ Dx e [0,1], y e [0,2] 
p(x,y) = 


0, în rest 
a) să se determine constanta k; 
b) să se determine densitățile marginale; 
C) să se cerceteze dacă X şi Y sunt independente sau nu; 
d) să se calculeze coeficientul de corelaţie între X şi Y. 


Se cere: 


Rezolvare 
a) din condiţiile p(x,y)>0=>k>0 


|] „pna zi fax] tac+ y+Ddy=1>k=1/5. 
za +y +1), x e [0,1], y e[0,2] 


Deci p(x,y) = 
O, în rest 
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ta 1 p2 2x +4 
b) Px 06) = |_„poeăy = 3] Oe + Day = Dax e OA] 
ZE se 107) 
= Px(x)= 5 
O, altfel 
+00 ] l 2 +3 
p(5) = | „poe pax = | yo Dax = Sc y et02] 
2y+3 
„Yy e[0,2] 
= Py(9)=3 10 
0, altfel 


c) X şi Y nu sunt independente deoarece: p(x,y) 7 px (x)-Py(y) 


d) E(X) = ] N! "pla, y)dxdy = ] xp x (od = =] x(2x + 4)dx = SS: 
—00 e —00 —00 50 15 


E = +00 pe -+co ie +00 Atel A ay 17 
W=[_] „popa =] _vprdb = 243 =3 


m-(X) = E(X?) = | pda = ao das = = 


+00 1 2 8 
m) = EX9)= prod = | av += 


11 64 37 
Deci  Var(X)= E(X?)-|E(X)Ț = = 
ei Var(X) = E(ă*)- [EQD] 30 225 450 
8 289 71 
Var(Y) = EY2-LEOYV)I = = 
ar(Y) = EY?)-lEP)] Se oa 


E(X.Y)= ] N! xy p(x, y)dxdy = [sa] ya + y+ ady = 


Iri 14.9 = E 
= [25 i sa 13 > CX D= EU - EO)EW)=. 
_9 8 12 -1 

15 15 15 225 

1 
Se obține: r(X,V) = COD = 225 = —0,02758 
0,:0; 37 
450 225 


Exemplul 2.3.40. Se ştie că, dacă două variabile aleatoare X şi Y sunt 
independente, atunci coeficientul lor de corelaţie este nul. Reciproca nu este 
adevărată. lată un vector aleator discret (X,Y), în care X şi Y sunt dependente şi 


totuşi r = 0. 
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Rezolvare 
Calculăm repartițiile marginale: 


0 e 0 pal e A 2 
fe 4/16 SA, (și 4/16 î. 


3 


Avem: E(X)=I EU) =a: ar A) Oy = 


O 
»|& 


EUY)=I EU) =: Var) =3: g, = 10 


70 ez, 10. 32 sd 
ă a (7 16 $6 A romi 
„_ BX-Y)-EOECD) __ 1-1 
003 J3 ALO 
E 


= 0 


Exemplul 2.3.41. Fie X o variabilă aleatoare care are densitatea de 
0,x g (0,2) 
robabilitate definită prin: = i 
i mita Dir) a e (0,2) 
a) Să se determine modulul şi mediana 
b) Să se calculeze momentul de ordin k, m, (x).. 


Rezolvare 
a) Conform definiţiei, Mo este valoarea pentru care p(x) — max .adică 
M, e (0,2) adică există o infinitate de valori modale situate pe segmentul (0,2). 
l 


M. se determină din ecuaţia F(M,) = a. 
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M, M 
Cum F(M,)= PX <M)= |, pt)a= Mi 


DP PO... 
b) m (0) = EX )=|_x = i 


2.4. Funcţia caracteristică. Funcţia generatoare de momente 


Definiţia 2.4.1. Fie câmpul de probabilitate (0, K, P) şi variabilele aleatoare X 
şi Y definite pe O cu valori reale. Se numeşte variabilă aleatoare complexă 
Z=X+iY, i =-—L, iar valoarea medie a acesteia notată cu E(Z) este dată de 
relația E(Z) = E(X)+i E(Y)dacă mediile E(X) şi E(Y) există. 


Observaţia 2.4.2. Dacă X este o variabilă aleatoare expresia 
e =costX +isintă, teR defineşte de asemenea o variabilă aleatoare şi 


itX 


Die 2 îDiz rue 
e = cos fă +sin fă =] 


Definiţia 2.4.3. Fie X o variabilă aleatoare reală. Se numeşte funcția 
caracteristică a lui X o funcție pp. :R—C dată de relația 


(7) = p(9 = E(e' ), care explicit poate fi scrisă sub forma 
Wpue” „este detip discret 


keK 
[e p(x)dx „este de tip continuu 
R 


px(0) = 


Propoziția 2.4.4. Funcţia caracteristică are următoarele proprietăţi: 

1) p(0)=1 şi p()|< IvreR 

2) Dacă X, j = 1,m sunt variabile aleatoare independente în totalitate 
cu funcţiile caracteristice (p x, (9 =0;(0),J= Im), atunci funcţia caracteristică 


a variabilei aleatoare sumă X = X, + X, +...+ X, este 
p(D= 0(0p4(0...9,(9= [00 
j=1 


3) Dacă Y=aX +b,aşib eR, atunci p,(t)=py(ate” 
4) Dacă X admite momente inițiale de orice ordine atunci funcţia 
caracteristică admite derivate de orice ordin şi are loc relația 


mA = E(X) = po 


Demonstraţie 
Sl 


1) p(0) = E(D=l şi 


p(|= ne” sp; 
keK keK 


[e p(x)dx| < ] 
R R 
2) Având în vedere proprietățile valorii medii, putem scrie că 


py (£) = E(e” ) = E(e'"! A gi: SE ein) = Î]ze”) = ] |o, (2) 
j=l j=l 


itx 


e' 


= Păi p, = 1 dacă X este de tip discret şi 
keK 


itx 
e 


p(|= 


p(x)dx = ] p(x)dx =1 dacă X este de tip continuu. 
R 


3) Tot ca urmare a proprietăților mediei avem: 
pu(0)= Ele )= Eţeimi -ei*) = eg,,(0) =e'tp(at) 

4) Observăm că pW(0)=E(X'e"i')=i'E(X'e”) şi rezultă 
p0(0)=i' EX) = i" m,(X).q.e.d 
Observaţia 2.4.5. Folosirea relației de la punctul 4) este recomandabilă doar 


atunci când calcularea momentelor este mai comodă prin această relaţie decât 
pornind direct de la definiția acestora. 


Aplicația 2.4.6. 
1) Dacă zel SE atunci 
1/6 1/2 1/3 
ut: pal | _2e re +3 
6 Î + 6 


X ! ă — 2] : 
2) Dacă xi, ) x e [0,1] atunci p(0) = | 2xe"dx DZ pi 
:. : e 


3) Dacă x: ) x > 0 atunci p(P) = [ee = — 
e i + 


Definiţia 2.4.7. Fie X o variabilă aleatoare reală definită pe câmpul de 
probabilitate (0,K,P). Se numeşte funcţie generatoare de momente, dacă 
există, funcția G:R-— R, dată de relația G,(t)= G(0) = E(e”) care explicit 
poate fi scrisă sub forma 

3 pe" „X este de tip discret 


G P) = keK 
0 [e* p(x)dx „X este de tip continuu 


R 
cu condiția existenţei expresiilor corespunzătoare. 


Propoziția 2.4.8. Funcția generatoare de momente are următoarele proprietăți: 
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1) G(0)=1 
2) Dacă X, 1l<jSm, sunt independente în totalitate şi au funcţiile 
generatoare G;(t), j =l,m, atunci funcţia generatoare a variabilei aleatoare 


AXA be A Pit A ESte 
6„W=[[6,0 
j=1 


3) Dacă Y=aX+b,aşib eR, atunci 

G,(9=G,(a0-e” 

4) Dacă X admite momente inițiale de orice ordin, atunci funcția 
generatoare admite derivate de orice ordin în punctul zero şi 
GO(0)= E(X')= m,(X), r=12,... 

Aplicația 2.4.9. 
—-1. 0 l 
1/6 1/12 2/3 


(ej ee a l | l -t — 2e +e +3 
6 De) 3 6 


1) Dacă X | atunci 


a 
2) Dacă xl, ) x > 0, 4>0 atunci 
e 


G(7)= A|e Pe" ax = Și dacă t<A 
| ZI: 


iar în caz contrar nu există. 


k 
3) Dacă | se i „p.4>0, p+q=|, atunci 
Cp 4 


n 0,n 


G(r) = 2,C,p'q" e" =(pe +9) 
k=0 
2 26 


G(9=mpe'(pe' +q)""; G(D=npe'(pe' +4)" +n(n-lp'e“(pe' +9)” 
G (0) = np = E(%); G'(0)=n'p” +npa = E(X”) 


2.5. Probleme rezolvate 
Aplicația 2.5.1. Fie variabilele aleatoare independente : 


0 l 2 -1 1 2 
X: şi Y: Ă 
= 1/4 . fi. 1/6 A 


Să se scrie variabilele aleatoare : 2X, Y, X+Y, XY, 2X+3%, XWY 
max(X, Y), AX 


Rezolvare 
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Probabilitățile corespunzătoare valorilor lui 2X, Y?, JX sunt aceleaşi 
cu cele corespunzătoare lui X şi respectiv Y. Avem: 


0 2 4 | 4 
Xa a bIT 01 v2 3 Aa: Ă 
1/2 1/4 1/4 1/2 1/4 1/4 1/2 1/2 


PY? = D= PP == 70) PP == PD arca. 
Deoarece X şi Y sunt independente avem că 


Pi = piqjl <i, J< 3 . De exemplu 
Po = PX =0,Y == P(X O)P( = D= =. Obţinera 
0-1 0+1 0+2 1-1 1+1 1+2 2-1 2+1 2+2 
X+Y: 
1/6 1/12 1/4 1/12 1/24 1/8 1/12 1/24 1/8 
adică 
-1 0 l 2 3 4 
X+Y: : 
1/6 1/12 1/6 7/24 1/6 1/8 
Analog 


cea 0-(-1) 0-1 0:2 1-(-1) 1-1 1-2 2:(-D) 2-1 2:2 
1/6 1/12 1/4 1/12 1/24 1/8 1/12 1/24 1/8 
de unde 


: 2-1 0 1 De 4 
“(1/12 1/12 1/2 1/24 1/6 1/8] 
Cum 2X şi 3Y au repartiţiile 


1) 2 4 3 3 6 
X: „3Y: ; 
[i 1/4 2) și 1/6 TA 


obținem repartiția lui 2X + 3Y : 


—3 1 1 3 5 6 7 8 10 
Dă +3Y: i 
1/6 1/12 1/12 1/12 1/24 1/4 1/24 1/8 1/8 


La fel obținem: 
(i sii e ie aj de "Ul ) 


y: 1/12 1/12 1/2 1/8 1/6 1/24 


(EV) 0 1 2 
max(X,Y): i 
1/6 5/24 5/8 


Aplicația 2.5.2. Fie X şi Y două variabile aleatoare discrete ale căror repartiții 
probabiliste comună (p;;) şi marginale (p;) şi (q;) sunt date în tabelul următor : 


XIY şi 0 | pi 
si 1/8 1/12 1/6 3/8 
I 1/24 1/4 18 5/8 
d, 1/6 18 172 | 
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a) Să se scrie variabilele aleatoare X şi Y. 
b) Să se precizeze dacă X şi Y sunt independente. 
c) Să se scrie variabilele X + Y, X- Y. X, Y, YV/X. 


Rezolvare 
a)Din tabelul de repartiție de mai sus deducem că 


—1 l Ş -1 0 l 
X: ŞI Y: . 
Î, a A 1/3 A 


b)Dacă X şi Y ar fi independente atunci 
Pu = PX =-1Y =-D= pa, = PX =-IPY =-D, 


A „1 31 
ceea ce nu are loc întrucât —z>.—. 
8 86 
c)Deoarece 
| | | | | | 
Pu = gPo = JP 223 GP = Dq Pa o Pa 3 , 
obținem 


—2  -—l () l 2) 
X-+Y: > 
Ș: 1/12 1/6+1/24 1/4 ] 


—1 () l 
Yi , 
pa 1/12+1/4 ai 


Pda = 0) l 
Y (/24+1/6 1/12+1/4 1/8+1/3). 
Repartiţiile lui X? şi Y? rezultă imediat din cele ale lui X şi Y: 


sacul | ză: ji d 
1 Uiae D73) 


Aplicația 2.5.3. Fie variabila aleatoare discretă _X : h și - | 
PPP PP PP 

a) Să se determine p. 

b) Să se calculeze funcţia de repartiție a lui X. 

c) Să se calculeze probabilitățile: 


P(X <1D,P(X < 3), P(X > 4), P(,5 < X <3,2),P(X > 2,1), 
PGL < XX > 2,8), PUS < X 32 <X <4). 


Rezolvare 
a) Trebuie să avem p + p? tp- p? p? = 1 şip > 0. Rezultă 
3p-+2p=1şip>0,adicăp= 143. 
b) Cum F(x) = P(X <x) rezultă că F(x) = 0 dacă x <], 
F(x) =p = 1/3 dacă x e(1.2], 
F(x) = P(X=1) + P(X=2) =p + p? = 4/9 dacă x e(2.3], 
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F(x) = P(X=1) + P(X=2) + P(X=3)=p+p”+p=7/9 dacă x e (344], 
F(x) = PAX=1) + P(X=2) + P(X=3) + PX=4) =p+pr+p+p”=8/9 
dacă x e(4,5] şi Fax) = 1 dacăx > 5. 


Deci : 
0, x<I, 
e l<x<2; 
3 
î 2<x<3, 
F=45 
—, 3<x<4; 
9 
A 4<x<5; 
9 
l, x > 5. 
c) Avem 


P(X<1) = P(0) = 0, P(X<3)=P(X=1)+P(X=2)-4/9, 

P(X>4)=P(X=5)=1/9, P(1,5<X<3,2)=P(X=2)-+-P(X=3)4/9, 

P(X>2,)=P(X=3)+P(X=4)+P(X=5)=5/0, 

PSL AX 28) POI) e 2pe 2 
P(X>2,8) O OP(X>28) p+2p 5 

P(1,5<X<3/2<X<4)P(X=2 sau X=3 / X=3) = P(X=3/X=3) =1. 


PGA < XX > 238) = 


Aplicația 2.5.4. Determinați constanta a e R pentru ca funcția f dată mai jos să 
fie densitate de repartiție şi apoi să se determine funcţia de repartiție 
corespunzătoare. Să se calculeze mediana, cuantilele şi valoarea modală a 
variabilei aleatoare X având densitatea de probabilitate p(x): 


2x, x e[0,1/2] 
p(x) = a, x e (1/2,2] 


0, altfel. 
Rezolvare 
PT ua E e e ul Sul Ei 
vem [po x =1, deun ) XX + 4 zei x =1 sau 
2 
ze '|a- d J = 1. Rezultă a = 4/3 şi deci 
. x<0 0, x<0 
; x e[0,1/2] sa x e[0,1/2] 
F(X = dt = ds 21 = 4 x = 
(%) [po zf RI x e(1/2,2] te ul x e (1/2,2] 
1/2 3 
l, x>2 l, X:>2 
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Întrucât F este continuă vom avea F(x) = F(x+0), Vx, deci 


FU) Şi PU) adică FU)=3 Aceasta se 
2, 
realizează pentru a - „de unde a e (1/2,2]. 


Aşadar M,(X)=2-— E = €,. Se observă că F(1/2)=1/4 deci c, = Ze 


x=—x2—1 3 3. 
3 


: „4 
rezultă din F(x)>=3/4, adică E Fi de unde c, =2-— ia 
Deoarece p este crescătoare pe [0,1/2] şi descrescătoare pe (1/2,2], 


x>1/2 este punct de maxim (singurul), prin urmare M,(X) = -. 


Aplicația 2.5.5. Să se determine variabilele aleatoare independente 
X X+l x+2 x+3 2y 3 
| IEZ2N 4 4) 
p 2p 3p 4p dq dq 
ştiind că E(X)=2 şi E(Y)>=7. Să se calculeze apoi E(2X+3Y), Var(Ă), 
Var(Y) şi VarQX+3Y). 


Rezolvare 
Deoarece X este o variabilă aleatoare trebuie să avem p+2p+3p4p=1, 
adică p=1/10. Atunci 
E(X) = x-pr(x+1)-2p+(x+2)-3p+(x+3)-4p = 10px+20p = x+2. 
Cum E(X) = 2 rezultă că x =0. 
Analog q+q:+q=1, adică 2q2+q-1=0, de unde q=1/2. Rezultă că 


E(Y)=y-q+2y-q-- 3yqi= y. Cum E(Y) = 7 avem că y>=4. Tablourile de 


repartiție ale lui X şi Y vor fi 
0 1 2 3 4 8 12 
ZE ale Ba aeo0))-o talpă A 3 
10 5 10 5 2 4 4 
Folosind proprietățile mediei avem 
EOQX+3Y) = E0X)+E(3Y) = 2E(X)+3E(YV) = 2:2+3:7 = 25. 
Pentru calcularea dispersiilor avem nevoie să calculăm mediile lui X şi 
Y?. Acestea au tablourile de repartiție 


O 1 4 9 16 64 144 
X2:| 1 1 3 2], 1 1 1 |, astfelcă 
10 5 10 5 2 4 4 
E(X)=0- Left se fie a 2 5 şi 
10 5 10 5 
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1 
By 16 E 64 144 60 Atunci 
2 4 4 


Var(X) = E(X")-E(X) = 5-4 = 1 şi Var(Y) = E(Y?)-E(YV) = 60-49 = 11. 

Cum X şi Y sunt independente, rezultă că şi 2X şi 3Y sunt independente 
şi avem 

Var(2X+3Y) = Var(2X)+Var(3Y) = 4Var(X)+9Var(Y) = 4:1+9:11 = 
103. 


Aplicația 2.5.6. Să se determine variabilele aleatoare X şi Y ale căror repartiţii 
sunt date incomplet în tabelul de mai jos, ştiind că E()=17 şi Var(Y)=1. Să se 
calculeze apoi E(XY) şi Var(ă-Y). 


XIY -b () b pi 
a 1/5 1/10 
a? 2/5 3/5 
qj 1/5 
Rezolvare 


2 : 
Deoarece p+p»=1 rezultă că p, =1-— Ă = 2 Mai departe 


ui UI | 2 , l 
Pirtpi2tp13>p adică = i 0 Er Pa = = „deci py 10 . Cum 


A LL 1 ] SE 
Pi3+p>3>d3 rezultă că py a 016 . Dar patpo>*p23>p2, adică 


0 ai A) 
Pa 551010 


i : Se d 3 az 
. Din pupa > şi p22*pr>92, rezultă că q, Si şi 


q, = 2. Obţinem astfel 


a a? —b 0 b 2 3 
N 2 Sg Pa 8  | mu Asttel ED=aata: = pe 


5 5 10 2 5 - 
adică 3a2+2a-85=0, de unde a=5, a2>-17/3. Deoarece 
3b 1 db bb. 
E(Y) = +0:-—+—= 1 
7) 10 2.5 10 i 
2 
EY?)= GC). S „02. N N „rezultă că 
10 2 5 
pb?  b?  49b2 
Var(Y) = EY)-EYY = = „Din ipoteză Var(Y)=1, 
(P) = EY )-EY) 2 1007100 p (Y) 


astfel că b? = La adică b= ca Din tabloul repartiţiei comune (p;;) avem 
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XY:| 1 l 1 1 l EI 
10 5 2 10 10 10 10 10 5 5 10 
cite Aa ei 20 00 aD 0, cl e să 
10 5 10 10 10 7 
Dacă a=5, E(XY)>-5/7, iar dacă a=-1743, E(XY)=17/21. Pentru 
calcularea dispersiei lui X-Y, avem nevoie de: 
a-b „a-b a 207 a+b a" +b _6a+4a+b 


-a'b -ab 0 ab ab a-b a'-b a a a+b a'+b 
ŞI X-Y: 1 1 1 1 


EX Y) = ț ț ț j 
10 10 10. 3 3 10 10 
_ D)2 2 p2 2 4 Pi 2 2 
Er vpe= (028 ta 20 a 20 (ard) (ad) 
10 10 10 5 5 10 
_6aî+4a'+2ab+5b” 
10 
120 __ 18985 


Pentru a=5, b=10/7 avem EX-YR şi EX -Y)]= mall 


18985 14400 4585 

49 49 49 
Aplicația 2.5.7. Să se determine parametrii care apar în repartiţiile următoare 
şi să se calculeze apoi E(X) şi Var(4), X fiind o variabilă aleatoare, având 
repartiția respectivă: 


deci Var(X -Y) = 


n 
a) Xl pen 
d 
4 
DX [01],a>0 
: „X e|U.l].a £ 
a(x” + 2x) 
ax, xe[0,1] 
X 1 
c)ăĂ: |oo- —ax, xe(1,2] 
p(x) 2 
0, altfel. 
Rezolvare 
a)Din condiţia Ş-- e e PE A a, 
i Za 4 1-g 4 4 
oo 1 . 1 o Ea 1 [=] ata | 23 A ţ 
EU În = Tana = LaSay= | Sa” | = 
n=0 4 4 n=0 4 n=0 4 n=0 


AREA d ] și În ide 
Fiu, 1-q 40-a) 4 4 
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DN NIN IER = zl : N Ls = 
E(X) => n pd janta”) d Sim) (3 


n=0 n=0 n=0 


1 1 2 
4 L(-q) 4 (-q) 
Astfel Var(X) = E(X?)-E(X) = 24-9= 15. 


b) Din condiția [ao + 2x)dx = rezultă că 


3 
des] 
3 


18 E a Ei „Atunci 
3 4 


zi îl a SR 20 osii 
EUO = ja poa = |, rate] 3 ];- 16: 
Die fb ad = [IE ai Bed = [ae De lie N9 
EX ja pix = |, a aa =a[€ lia 
2 
Astfel Var(37) = EQ?) BA) = 21 2) Ra 48) 
40 (16 1280 
c) Din condiţia | p(x)dx = 1 rezultă că 
4 2 2 =] 
|asae+ | Sa-i 2 ja Ap ta “Cum 
0 1 2 4 4 4 4 a =4 
p(x) > Onumai a=1 convine, astfel că : 
[2 7 RR 2 002 le 30 ae e 7 Al 
EU) = || x: poa = xx d + | x: adr = joase 
23 _ [22 lira vă Pa XX Xa 49 
E(X e pd = [x -X + | x De Gota | 24 


49 (41 313 
Var(X) = EX) EX = = 
cd iat al aaa 24 2) 1800 
Aplicația 2.5.8. Fie vectorul aleator (X,Y) cu X, Y variabile aleatoare 
independente, a cărui densitate de probabilitate este 


p(x,y)= e „Să se determine: 


(+ x2%1+y2) 
a) funcția de repartiție corespunzătoare; 
b) P(X,Y) e[0,1)x[0,0)). 


Rezolvare 
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a) Avem IR pix, y)dxdy = 1, deci (i 


2 a 
dxdy = 1. Rezultă 
e ALEA xy ezultă 


-koo dx oo dy l 
că a =1> a-arctox|'“-arctoy|'* => a=—. 
[. 1 + x2 [, 1+ E SĂ 2 2Y| 2 
leg dudv juca “ali oc a 
F X, = = 
| ( Y) m? Î.|. (ru +v) m? ES a are. 
Atunci 


= E voga La pl 
T ei T > 


P((X,Y)e D)= — o) 
b) 


dudv _ 
(Ur u?)(1+v2) 


= F(LLD) F(0) F(0,l) F(0,0) = 


Aplicația 2.5.9. Fie vectorul aleator (X, Y) cu densitatea de probabilitate 
2 
ax y, (,y)e[0,1]x[0,2] 
pl, Y) i 
0, altfel. 
a) Să se determine constanta a. 


b) Să se calculeze funcția de repartiție F(x,y) şi funcţiile marginale 
FO) şi Fr). 


Rezolvare 


1 p2 pe 2 02 a alei 
a) Avem Î, [, p(x,y)dxdy=1, adică a], d], ydy =1, rezultă că 
CEE de unde ES 3 
3 2 


b) Avem F(x, y) = | IN p(x, v)dxdy . 


Dacă x < 0 sau y < 0, atunci f(x,y)=0 şi deci F(x,y)=0. 
Dacă x > 1 şi y > 2, atunci F(x,y)=l. 
Dacă (x,y) e[0,1]x[0,2] avem 
e 


F(x,y)= Î, | usca = = [uda va = 2 i 


Dacă x e [0,1] şi y > 2 avem 
E X 23 2 2 3 x > 2 ___3 
F(x, y) =], [ Zi vdudv = |, u du, vdv =>. 
Dacă x > 1 şi y e[0,2] obținem 


F(x,y)= Î | seva = = [edu] va = a 
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0, x <Osauy <0 
3.22) 
a) elollx102] 
Astfel F(x,y)=+ x, x e[0,1],y>2 
2 
A x>yel02] 
l, x>1,y>2 
Funcţiile de repartiție marginale sunt 
0, x <0 
F(x) = F(x,c0)=1x, xe[0l] 
l, x>l 
0, y<0 
2 
FA) = Pop)=ts yel02] 
l, y>2 


Aplicația 2.5.10. Fie vectorul aleator (X, Y) având densitatea de probabilitate 
Cs) ee»), x>0,y20 
+, y)= 
cati 0, altfel 
Să se calculeze: 
a) P(Ă<I,Y<1), PĂ+Y<I), P(Ă+Y>2), PAI, P(X<2%), 
P(X=n) ; 
b) Funcţia de repartiție F(x,y) şi funcţiile de repartiție marginale F(x), 


Fry); 
c) Densităţile de repartiție marginale px(x), pry); 
d) Momentele obişnuite de ordin (k,s) ; 
e) Corelaţia variabilelor X şi Y. 

Rezolvare 


a) P(X <1,Y<1)= [. Î p(x, y)dxdy = 
= [e asa = ce Duce = a-ey 


P(X+Y <D= [| pt, aav= Î | easy = | e*(ce”) 


x+y<l 


l-x ez 
o. dx = 


i) —l —l 
„e =l-2e, 


= | (ee tar=(ce”) 
P(X+Y>2)=1-P(X +7 <2)=1- [| pa, Daav= 


x+y<2 


o dx =1- Î (e* —e dx = 3e? 


=1-— [i (HE e" "dxdy = 1 [i e"(e”) 
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PX >1Y>D 
PY=I 


P(X >1,Y >1)= i. | e" "dxdy = (rea) E (ce) 


P(X >1/Y >= 


+00 __ 3-2 
su n 


= e 


-+oo -—l 
1 


ce”) 


PY > 1)= [Să [Mă e" "dxdy=—e" 
= PA SIP ae 


x/2 = 
g dx = 


P(X <2Y)= [| e" "dxdy = | £ e "e "dydx = fa e”) 


0<x<2y 


0 


—3x —3x 
-+oo a pi 2 l 
= | (e* —e 2 )dx=|-e"+—e? [i =1-—=—, P(AX=Y)=0. 
0 e; 33 
x ry 
b) Avem F(x, y) = | | p(u,v)dudv . 
Dacă x > 0 sau y < 0 p(x,y)=0, deci F(x,y)=0. Dacă x >0 şi y >0 avem 
XD ou Au Y —x E 
F&w=| [, e dudv = | e du, e dv =(l-e*X(l-e”). 
Funcţiile de repartiție marginale sunt 
F„(x)= F(xo)=l-e” şi F/(y)= F(oo,y)=l-e”. 
c) Densităţile de probabilitate marginale p,(x) şi p,(y) sunt 
derivatele funcțiilor de repartiție marginale: 


0, x<0 
pu] i pr] 


> 
e”, x>0 


0, y<0 
e”, y>0 


d) o, = M(X*Y*) = | |, eva = 

= [> xte "dx [N wedy=T(R+DT(s+D= As! 

unde I'(p)= (ii xPle*dx este funcţia gama a lui Euler şi are 
proprietatea că I'(p+1)=p! pentru pe N. 

e) Avem 

cov(X,Y) = E(AY)- E(XD)EUY) = m, — | xe "da ye "dy = 


=1-TQP =1-1=0. 
Aplicația 2.5.1]. Fie (X,Y) un vector aleator discret a cărui repartiție 
probabilistă este dată în tabelul de mai jos. Să se calculeze coeficientul de 
corelaţie r(X, Y) şi să se scrie ecuaţiile dreptelor de regresie. 


X.Y -l 0 | Z pi 
-l 1/10 1/5 1/10 9) 2/5 
9) 1/20 9) 1/10 1/20 1/5 
l 1/10 1/10 1/20 3/20 2/5 
dj 1/4 3/10 1/4 1/5 l 


63 


Rezolvare 
Pe baza formulelor corespunzătoare, deducem imediat: 


E(X) = 1524003 căii 240 pay 1.140.5 stie ia na 
5 5 5 4 10 4 3.5 
2 l 2 4 
EX?) = (D7-24+07-2+P.2=-, 
Val al aia, 5 5 5 5 
l 3 l 1 13 
Bilele e De | e Pa, 
d ai zu 4 10 4 5 10 
Var(0) = EC?) EX) 2, 
13 4 57 
Var(Y) = EYP?) EP = 2 — = 
P) = EV )-EYV) ŢI z 27; 


Ac Sai că ae CD-0-- dala e PCD-2-040-(0D-35+ 


+0.:0:0+0.1. i + 0.2. | -I-( pe +10: i +]-1: . +].2. S 2 
10 20 10 20 20 4 


cov(X,Y) = E(UY) UDE) =2 
cov(Ă,Y)  _ 0,25 
Var Var YD) 2 57 

5 +50 


Ecuațiile dreptelor de regresie sunt : 


r(X,Y) = 


50 50 
Aplicația 2.5.12. Să se determine funcția caracteristică şi funcția generatoare de 
momente şi apoi să se calculeze, pornind de la acestea, momentele m, şi m,, 
pentru următoarele variabile aleatoare: 


0 1 2 
7 9. di NL IRI NI 
2 4 4 


b) X: Ș uz : 


Rezolvare 
a) Avem 
se A 2 opta die coeaa e  Doe 
/ =. | el! . | e2. RE 
Pai) 2 4 4 4 


t 2t 
G(=ze" | ze" | : e 


Primele două derivate ale acestor funcții sunt: 


P(0)= ale' +2e) , pu(0)= ae +4e2) , 


G.(0 e +20%) , G„(0)= ze +4e%) . 


Obţinem 
| e AIR Bi ol 3 5 
POE Pl) ; Ce 0) 0 „ de unde 
(0 i za e SI 
au(3)= BUD PE OG =2 și 


00 = B00)= 20 că. 

b) ,(0)= [ii e'* -e "dx = IN (costx + isin fx)-e "dx = 
= ji. costx:e "dx+ i sin îx:e "dx = A+iB 

A= [. costx:e "dx = [i cosx-(-e ")dx = 


+00 


-+00 
i Î, tsin îx-e 'dx=1-1B,, 


= —costx-e” 


-koo 
B = Î, sin îx:(-e "dx = —sin fx-e” 


+00 
î +] costx:e "dx =t4. 


Obţinem A = 1 -tA, adică A = L = ȘI B> : zu 
1+£ 1+1 
1+ it 
Astfel t) = ; 
p(0) îs 
î, EEOL ate iti x(7—l) aa -+co l 
Apoi G,(D=], ee a=] e" "dx = ear. LA 


Primele două derivate sunt 


Doi At . (pie 4102 
Să (50 a ci (zf) 
, ] IL 2, 
i ac au: ; Sa BE . 
Obţinem 


m) = BUD) = 29 = 00) =1 şi 
[A 


pu (0) 


m,(X)= E(X?)= 2 = G,(0)=2.. 
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2.6. Probleme propuse 


Aplicația 2.6.1. Se consideră vectorul aleator (X,Y) cu densitatea de 


Ay>daca x,y0, Vl 
0, altfel 


probabilitate: pl, y) = | „Să se determine: 

a) constanta reală A; 

b) densitățile de probabilitate px, py pentru variabilele aleatoare X, 
Y; 


c) probabilitățile P(0 <X < 2 0<Y< şi PX <2 IV < =) 


Aplicația 2.6.2. La patru unități alimentare din oraş se poate găsi zilnic pâine 
proaspătă cu probabilitățile p:=0.8, p>>=0.9, p3=0.95 şi respectiv p4=0.85. Fie X 
numărul unităţilor alimentare din cele patru la care se găseşte pâine proaspătă 
într-o zi fixată. Să se determine: 
a) distribuţia variabilei aleatoare X; 
b) valoarea medie, dispersia, abaterea medie pătratică, mediana şi 
modul variabilei aleatoare X. 


Aplicația 2.6.3. Fie (X, Y) coordonatele unui punct luminos ce reprezintă o ţintă 
pe un ecran radar circular şi care urmează legea uniformă pe domeniul 
D = 1(%y) eR” |x+y < r]. Să se determine valoarea medie şi dispersia 


distanţei Z > NX?+Y? de la centrul ecranului până la punctul luminos. 


Aplicația 2.6.4. Folosind inegalitatea lui Cebişev, să se arate că 
P(0<X2(m+1)) >, 
m+l 
dacă variabila aleatoare X are densitatea de probabilitate 
m 
PCD =3 m 
0,daca x<0 
Aplicația 2.6.5. Probabilitatea ca o persoană să găsească loc la un hotel este p 
= 0.8. În decursul unei luni de zile, la hotelul respectiv s-au prezentat 4000 de 
persoane. Fie X numărul persoanelor care au găsit loc la hotel din totalul de 
4000. Să se determine probabilitatea ca: 
a) numărul persoanelor care au găsit loc la hotel să fie cuprins între 
3000 şi 3400; 
b) numărul persoanelor care au găsit loc la hotel să nu depăşească 
3000; 
c) numărul persoanelor care nu au găsit loc la hotel să fie mai mic 
decât 500. 


e",daca x. 


Aplicația 2.6.6. Fie variabilele aleatoare independente: 
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sea ZE e cafele 006 Sl 2 
Rl 1/2 îi) să 2fn 1/2 1/4 is) 
Să determine variabilele aleatoare: X+Y: X-Y. XI: XX; Fi XE; Fi; 2X; 3%: 
2X+3Y; 3V-2%; VĂ. 


Aplicația 2.6.7. Fie X şi Y două variabile aleatoare discrete ale căror repartiții 
probabiliste comune (p,) şi unidimensionale (p,;) şi (q;) sunt date în tabelul 


de mai jos: 
Y 
> -l 0) l 2 pi 
-l 1/12 | 1/24 | 1/24 | 1/48 | 3/16 


1/48 | 1/24 | 1/48 | 1/24 | 1/8 
1/48 | 1/3 1/6 1/6 |11/16 
dj 1/8 | 5/12 [11/48 [11/48] 1 


=|—= 


a) Scrieţi variabilele aleatoare X şi Y; 
b) Precizați dacă variabilele aleatore X şi Y sunt independente sau 
nu şi justificaţi răspunsul; 


Y 
c) Scrieți variabilele aleatoare: X+Y; X-Y; X.Y; Ge Pai de 
3ă-2Y; 


Aplicația 2.6.7. Fie variabilele aleatoare independente: 
a 4) ie a a ai 
a ali e eee le Ip PAI e IE e e de ai 
10 5 5 10 5 [2 12 2. 6 12. 12 
a) Calculaţi E(X), EX), Var), EV), EX) şi Var(b): 
b) Care dintre următoarele mărimi pot fi calculate şi care nu şi de 
ce? 
EQX+3Y); Var(2X+3Y); E02+Y); Vară +Y); 
EGO+Y): Var +): EX). 
c) Calculaţi mărimile de la punctul b) pentru care răspunsul este 
favorabil. 


Aplicația 2.6.8. Să se determine, în fiecare caz, variabila aleatoare X şi apoi să 
se calculeze E(X) şi Var(X). 


x 
a) | sep: ap „xeN,a>0,b>0 
pd >! 
6) X:| * |xeroij,aen d) xi] i; „sed: a eR 
ax a(3x +2x) 
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X 


ala] 
e 


X: 
ii | pla) 


) a€eR, xeR, f) | S |xea 
ax „x e [0,1] 
ax? 

p(x) = Ba e |L|-aeR 


0 „în rest 


01 
Aplicația 2.6.9. Fie variabilele aleatoare discrete:  X [i şi 
e IEC 


A Ie) 
A l 
[i | ] Dacă  P(X=0,Y =0)=4 si P(X=1V=l)==, să. se 
E SA a 3 
6 2 3 
determine repartiția comună a vectorului aleatoriu (X,Y) în funcție de AR. 
Calculaţi apoi coeficientul de corelaţie r(X,Y) şi precizaţi dacă există valori 
ale lui A pentru care X şi Y să fie independente. 


Aplicația 2.6.10. Fie (X,Y)un vector aleatoriu continuu cu densitatea de 


2 2 
+ (E 1254275 
repartiție ptr a[a0% + „6Delell23)) = o 
() „în rest 
a) Determinaţi densitatea de repartiție p(X,Y) şi densitățile de 
repartiție marginale corespunzătoare py(x) şi p,(y); 


b) Calculaţi coeficientul de corelaţie r(X,Y). 


Aplicația 2.6.11. Calculați funcția caracteristică şi funcţia generatoare de 
momente pentru fiecare dintre variabilele aleatoare: 


1 2 3 —-2 —1 0 1 2 
i); 901 DU Bata A = 2 Lu 

6 3 2 10 5 5 5 10 
c) x-| a ebil d) | i x>0 

3x xe 


şi apoi verificaţi dacă momentele obţinute pe cale directă coincid cu cele 
obținute cu ajutorul acestor funcţii. 


Aplicația 2.6.12. Verificaţi dacă funcţiile următoare definesc repartiţii ale unor 
variabile aleatoare discrete şi apoi calculaţi E(X) şi Var(Ă) pentru fiecare dintre 
ele. 


k = 
apte = 009) „ke N,O >1, b) P(k)= | e *,keN,0>0, 


0 k 0* -k! 
c) P(R)=0*(1-0)'*%,k e 101V0<0<1 
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Capitolul 3 


Legi clasice de probabilitate (repartiţii) ale 
variabilelor aleatoare discrete 


Introducere 


Vom prezenta în acest capitol principalele legi de probabilitate ale 
variabilelor aleatoare discrete, şi anume: legea discretă uniformă, legea 
binomială şi cazul său particular legea Bernoulli, legea binomială cu exponent 
negativ şi cazul particular legea geometrică, legea hipergeometrică şi legea 
Poisson (legea evenimentelor rare). 


3.1. Legea discretă uniformă 


Definiţia 3.1.1. Variabila aleatoare discretă X urmează legea discretă 
uniformă dacă are tabloul repartiției 


XX, l * 
X: „ undep, =—,k=1,2,.n,neN. (3.1.1) 
Pi Pa ---P LU 


Vom mai spune că variabila aleatoare X dată de formula (3.1.1) are o 
repartiție discretă uniformă. 
Din tabloul repartiție: variabilei aleatoare X se observă că 


Teorema 3.1.2. Dacă variabila aleatoare X are repartiție discretă uniformă cu 
tabloul repartiţiei (3.1.1), atunci valoarea medie şi dispersia sa sunt 


BUS rar = Sat = (Sai. (3.1.9) 


k=l 


Demonstraţie 
Din formulele de calcul ale mediei şi dispersiei obținem 
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E(X)= Sup = De PS 


Var(X) = E(UX2)-LEOOP = apa - pă 


n 


2 
Și 
Str a ) IS (5). 


k= 


q.e.d. 


Observaţia 3.1.3. Deoarece Var(X) > 0, din relația a doua (3. 1.2) avem 


2 
DDR > a) ; 
k=1 k= 


relaţie utilă în diverse aplicaţii practice, şi care rezultă direct şi din inegalitatea 
lui Cauchy-Buniakovski-Schwarz. 


Propoziția 3.1.4. Dacă variabila aleatoare discretă X are repartiție uniformă 
cu tabloul repartiției (3.1.1), atunci funcţia sa caracteristică este 


p()= Sebi, teR. (3.1.3) 


N p= 


Demonstraţie 
Conform formulei de calcul pentru funcția caracteristică, avem 


n . ] n | 
p(0)= YVpue* =—YVe, VteR.q.ed. 
K=I N ka 


Propoziția 3.1.5. Dacă variabila aleatoare discretă X are repartiție uniformă şi 
ia valorile x, = k, k =1,2,...„n, adică are tabloul repartiției 


3 |_= = 
33|» 
3|l= ag 


atunci 
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ml 


bă 


E(X) n Var(X) = 


12 
„nt 
SIN — ina 
p()=—e 2 „ VreR, tz2kr,keZ;, p(t)=l, t=2kr, keZ. 
n Sin — 
2 
Demonstraţie 


Din formulele (3.1.2), pentru x, =, k =1,2,...„n, obţinem 


l« le n+]l 
ED) dx 9 k=——, 
(3) a 23 = 


2 2 
] n ] n ] n ] n 
Var(X)= —5 xi 2033 = —5k? 102) 
N = LUI ra N p= N Vaz 
_L nn+DOn+1) 1 a (20 RR, aa 
n 6 n 4 [25 + 


Din formula (3.1.3), obținem pentru funcția caracteristică 


IA pp e" l-ei! ei! l-cosnt—isinnt 
p()=—3e =—. =—. 
n 2 n 


l-e“ n  l-cost—isint 


„ont nt nt PRI, RE NL 
+ 2sin? 2i sin — cos „SIN COos—+isin 
< 2 2 De 2 2 2 


a [A E; [A A ă 
"sin? = 2i sin „ cos” 4 sin [cost | sin 
et sin N sin A ( 
IS ——n+De 
îi 2 cos + isin e). 2 e ? „VteR, tz2kr,keZ, 
n Sin — n sin — 
2, 2 


p(r)=1, r=2kr, keZ. 
q.e.d. 


3.2. Legea binomială. Legea Bernoulli 


Definiţia 3.2.1. Variabila aleatoare discretă X urmează legea binomială 
(X are o repartiție binomială) cu parametrii n şi p (ne N, O0<p<l) dacă ia 
valorile 0,1,2,...,„n cu probabilitățile 


7] 


PX =k)=Cipiq”t, k =0,12u-sn, (2) 


unde q=l-p. 
Tabloul repartiției variabilei aleatoare X este 


0 l 2 n 
ăi: 0 „0 1 —l 2.2 —2 0 | 
(pa c,pa” Cp e Cup 


Se observă că Y Cip'q"* => Cip"q' =(p+q)' =1. 


k=0 k=0 


Exemplul 3.2.2. Dacă 4, 4,,....4, Sunt evenimente independente şi 


P(4,)=p,i=1,2,...„n, iar X reprezintă numărul evenimentelor care se 


n 


realizează în cadrul unei experiențe , atunci X are repartiție binomială cu 
parametrii n şi p (conform schemei lui Bernoulli). 


Exemplul 3.2.3. Dacă A este un eveniment legat de o anumită experienţă şi 


probabilitatea ca A să se producă când efectuăm o singură dată experienţa este 
P(4)= p,atunci variabila aleatoare care are ca valori numărul realizărilor lui 


A când efectuăm de n ori experienţa are repartiție binomială cu parametrii n şi 
p. 


Teorema 3.2.4. Dacă variabila aleatoare X are repartiție binomială cu 
parametrii n şi p, atunci valoarea medie şi dispersia sa sunt 


E(X)=np, Var(X)= npa. (3.2.2) 


Demonstraţie 
Valoare medie a variabilei aleatoare X este 


E(X)=0-Cpp'q" +1-Cupq" +2-Cip'q" +---+n-Cip"q" = > RCip'q"”. 
k=0 


Pentru a calcula suma de mai sus vom considera polinomul 
P(x) = (px +q)" =C9p"x" + Cip" qx” +-:-+ Cr pg" x + C"q” 


= Cp gi = XC prd, 
k=0 k=0 
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Derivând polinomul de mai sus obţinem 


n n-l 


P'(x) = np(px + d) = nC'p x + (n =) Dee ezite 


n 3.2.3 
+ C"ipq”! +0-C0"q" =) A pd, ( ) 
k=0 


Luând x =1 în relaţia (3.2.3), obţinem XRO. p“q"* =np(p+q)"", de unde 
k=0 
rezultă că E(X)= mp. 
Pentru a calcula dispersia lui X vom folosi formula 
Var(X) = E(X?)-LEGODŢ. 
Media variabilei X “este E(X”)= XA Cipo i, 
k=0 


Înmulţim relaţia (3.2.3) cu x şi obţinem 
xP'(x) = npx(px +9)” = nCp"x" + (n— 1 A ial» sta +. SI i 77 atei 


+0- Cha” = NC pate 
k=0 


Dacă derivăm relaţia de mai sus deducem că 


P'(x)+xP"(x) = np(px + 9)" + n(n—Dpx(px + 9)" = Spa, 
k=0 


Luând x = în relaţia de mai sus deducem că £E(X?)=np+n(n-l)p?. 
Obţinem astfel dispersia lui X 


Var(X) = np + n(n—Dp? —n?p? =np—np? = npg. 
g.e.d. 


Propoziția 3.2.5. Dacă A este modulul (valoarea cea mai probabilă) a unei 
variabile aleatoare X cu repartiție binomială cu parametrii n şi p, atunci 


np-q<A<np+p, 


unde q=1l-p. 
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Demonstraţie 
Dacă este modulul variabilei X atunci 


PX =4-D<P(X=14), PO=4+D<P(X=4). 


Inegalităţile de mai sus ne conduc la sistemul 


20 4 nl Ad ună SR e A 
GI pd SsC,pA 2) Deda e aa A<np+p 
6 se Ada < (pie? p E q A, > np —g, 
A+ n=A 
de unde rezultă concluzia propoziției. q.ed. 


Propoziția 3.2.6. Dacă variabila aleatoare X are repartiție binomială cu 
parametrii n şi p, atunci funcţia sa caracteristică este 


p(%)=(pe' +9)", te. (3.2.4) 


Demonstraţie 
Conform formulei pentru funcția caracteristică avem 


p(7) = XCipia et = 05 (pei) q"* A (pe' a q), Yt e R. 
k=0 k=0 


q.e.d. 


Teorema 3.2.7. Dacă variabilele independente X şi Y au repartiţii binomiale cu 
parametrii n şi p, respectiv m şi p, atunci variabila X+Y are repartiție binomială 
cu parametrii m+n şi p. 


Demonstraţie 
Deoarece X ia valorile 0,1,...,n, iar Y ia valorile 0,1,...,m, rezultă că variabila 


X+Y va lua valorile  0,1....,n+m. Variabila X+Y are valoarea 4 
(k e 10,1,...,n+m)) dacă (X=0 şi Y=R) sau (X=1 şi Y=k-1) sau ... sau (X=k şi 
Y=0). Atunci vom obține 
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por= == ret e Sac ro 


j=0 


ă hi 
= 5 PUI Î)PY k— ]) Cp a Ci pi Ig 
20 


j=0 


ză phgnimi Scicti Za Cp 
=0 


J> 
Am folosit mai sus faptul că evenimentele X şi Y sunt independente, şi de 


k 
asemenea am utilizat formula DIsa E ai 


m+n ? 
j>=0 


coeficientul lui x* din dezvoltările (1+x)"(1+x)” şi (+x) 
Deci am obținut 


care poate fi dedusă egalând 


n+m 


PX + PY == C1 pia, Vk=0,l...„n+m, 


adică variabila X+Y are o repartiție binomială cu parametrii m+n şi p. 

Concluzia teoremei mai poate fi obținută folosind proprietatea de la funcții 
caracteristice care spune că funcţia caracteristică a sumei a două variabile 
aleatoare independente cu funcțiile caracteristice g(7) şi p,(£),£e R, are forma 
p(%)=0,(9p,(0), re R. Astfel folosind relația (3.2.4) deducem că funcția 
caracteristică a variabilei X+ Y este 


p(7) = (pe' + a) (pe' + a) = (pe' + a)”, VteR. 


Din expresia de mai sus a funcţiei c tragem concluzia că variabila aleatoare X+Y 
are repartiție binomială cu parametrii m+n şi p. q.e.d. 


Teorema 3.2.8. (Bernoulli) Un eveniment are probabilitatea de realizare p 
atunci când facem o singură dată experiența de care este legat. Dacă a,este 


numărul de realizări ale evenimentului când repetăm experienţa de n ori,atunci 


Nn—O 


lim Ale —p 
n 


> ) =0, (3.2.5) 


oricare ar fie > 0. 


Demonstraţie 
Variabila aleatoare a, care are ca valori numărul de realizări ale evenimentului 


din problemă are repartiție binomială cu parametrii n şi p. Conform Teoremei 
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a, 


va avea atunci 


3.2.2 avem E(a,) =np şi Var(a, ) = npq. Variabila aleatoare 


n 
valoarea medie, dispersia şi abaterea medie pătratică 
l 
m= e(*]- E(a,)= a =p; 
n n n 
a l 
ra *-. = —Var(a,) = i Oy = EL, 
n n n n 
Vom folosi acum Inegalitatea lui Cebâşev pentru variabila —- şi a = e. 
Obţinem 
2; 
AP z0)s 9-24 
n g ne 
Deoarece lim -P se = 0, din inegalitatea de mai sus rezultă inegalitatea (3.2.5). 
N—O NE 
q.e.d. 


Observaţia 3.2.9. O îmbunătăţire a inegalităţii (3.2.5) este dată de teorema lui 
Borel, care spune că în condițiile Teoremei 3.2.8 are loc relația 


ps >) =]. 
n 


Aplicația 3.2.10. În cadrul unei experiențe evenimentele independente 
4,,4,;...A4, au probabilitățile de realizare  P(4,)=p,, k=L2,...,n. Să se 
calculeze valoarea medie şi dispersia numărului de evenimente care se 
realizează atunci când experienţa are loc. 


Rezolvare 

Să notăm cu X variabila aleatoare care are ca valori numărul de 
evenimente care se realizează în cadrul experienţei. Valorile variabilei X sunt 
0,1,2,...,n. Probabilitatea ca X să ia valoarea k (F = 0,1,2,...,n)este, conform 


schemei lui Poisson (schema binomială generalizată) coeficientul lui x" din 
polinomul 


O) = (pix tgp ta) (pt) (3.2.6) 


unde gq, =1-p,;, i=1,2,...,n. Dacă scriem desfăşurat pe O(x) sub forma 
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O(x) = ap +ax+ ax? + +a”, (3.2.7) 


atunci tabloul repartiției variabilei X este 


0 1 2 -- n 
X: : 
da d, “: a, 
Suma tuturor elementelor de pe linia a doua a tabloului de mai sus este 7. Într- 
adevăr 


ay +a, +--:+a, = 0(D=(p. +ad(p2 +a2)---(p,+a,)>l. 


Valoarea medie a variabilei X este E(X) = ka „. Ideea de demonstraţie a 
k=0 
teoremei este asemănătoare cu cea a Teoremei 3.2.4. Vom deriva polinomul Q, 
scris sub cele două forme de mai sus (3.2.6) şi (3.2.7). Derivând relația (3.2.7) 
obținem 


O'(x)=a,+2a,x+ 3ax” +...+ na”, (3.2.8) 
de unde rezultă 
O'(D)=a,+2a,+3a, +--:+na, = ha, = MN). 
k=l 


Pe de altă parte parte, derivând relaţia (3.2.6) obținem 


O'(x) = pil [pxrao+pÎloxrao+ pl lo+a (3.2.9) 


kzl kz2 kzn 


iar pentru x =1 deducem 0O'(l)=p,+p,+:::+p,. Rezultă că 


EU) = > Pi. (3.2.10) 


Pentru a calcula dispersia, vom calcula mai întâi £(X*) = ka 4» Înmulţim 
k=0 
relația (3.2.8) cu x şi obținem 


2 3 
xO'(x) =a,x+2a,x +3a3x +--:+na, x. 
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Derivând egalitatea de mai sus rezultă 


2 2 2 2 —l 
O'(x)+x0"(x)=a, +2 a,x+3 ax t---+n ax” 


Pentru x = | deducem din relația de mai sus O'(1)+0"(1) = DIR Deci 


EU) 00+0"0= Yip, +0"0, (3.2.11) 


Derivăm acum relaţia (3.2.9) pentru a determina 0O"(x) ; obţinem 


ord pp. [oara scope a) [opera] 


jzl,2 2,3 jzln 


st mȚcopeea ep: [opera [co+ao| 


jeln jz2,n jzlmn-=l 


Pentru x = obținem din relaţia de mai sus 


O'(D= pupe Dope ++ Pa Pe > PILE(X)— p,]+ p-LEUO - p.] 
++ PALEQO- p,1> EQO(p + po +---+p)-(pi + pa +---+ pa) 
=[EQOP Sai 


Din relația (3.2.11) şi din relaţia de mai sus deducem că 

E(X)= > pu +LEOOI = pi. (3.2412) 

k=l k=1 

Folosind acum relaţiile (3.2.10) şi (3.2.12) rezultă că dispersia lui X este 
Var(X) = EUO)-LECOI = Sp LECOT Sai LEOOP 
Sp Sp = Spit po Spui: 
A=1 K=I k=1 A=1 

O altă metodă mai simplă pentru calculul mediei şi dispersiei variabilei X este 


următoarea: să notăm cu X, variabila aleatoare care are ca valori pe / dacă A, se 
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realizează, şi pe 0 dacă A, nu se realizează, pentru k = 1,2,...,n. Tablourile de 


repartiție pentru variabilele X, sunt 


1 0 
XX: KE =L2ien. 
Pr di 


Atunci numărul evenimentelor care se realizează este AX =X, +--:+X,, deci 
media sa va fi 


EU XE) = pu 


Deoarece variabilele aleatoare X,, k = 1,2,...,n sunt independente, atunci 
dispersia varaibilei X va fi 


Var) = Iară) = SEE E = pi = pi) = Spacu 


k= k=l 


g.e.d. 


Pentru n=1,legea binomială este cunoscută şi sub numele de legea 


Bernoulli cu parametrul p. Variabila aleatoare X care urmează legea Bernoulli 
cu parametrul p admite doar două valori posibile 0 şi 7 cu probabilitățile de 
realizare q=1-p şi p, având tabloul repartiţiei 


01 
X: | ) q=l-p. 
4 P 


Valoarea medie şi dispersia variabilei X sunt E(X)= pşi Var(X) = pg. 

O variabilă aleatoare cu repartiție binomială cu parametrii n şi p dată de 
Definiţia 3.2.1 este suma a n variabile aleatoare independente cu repartiții 
Bernoulli cu acelaşi parametru p. 


3.3. Legea binomială cu exponent negativ. Legea geometrică 
Definiţia 3.3.1. Variabila aleatoare X urmează legea binomială cu exponent 


negativ (X are repartiție binomială cu exponent negativ) cu parametrii m şi p 
(meN', 0O<p<1) dacă ia valorile m,m + l,m+ 2,... cu probabilitățile 


P(X=B=Criprg, km, (3.3.0) 
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unde q=1-p. 


Tabloul repartiției variabilei aleatoare X este 


m m+] m+2 ... 
x: m-l ml —m m-—l _m_2 i 
Caap d Ca PU Cupa *: 


Exemplul 3.3.2. O experiență se efectuează până la cea de-a m-a realizare a 
unui eveniment A legat de ea. Dacă probabilitatea acestui eveniment când se 
face o singură dată experienţa este p, atunci numărul X de efectuări ale 
experienţei este variabilă aleatoare care are repartiție binomială cu exponent 
negativ cu parametrii m şi p. Într-adevăr, evenimentul 4X =k) se scrie ca 
intersecția a două evenimente: „în primele k-l efectuări ale experienţei 
evenimentul A se produce de m-l ori” şi „în a k-a efectuare a experienţei se 
produce A”. Probabilitatea primului din aceste două evenimente este 
(ea e 
doilea este p. Deci 


„ conform schemei lui Bernoulli, iar probabilitatea celui de-al 


RX) pe pa "sr pa me lasa 


=l 


Teorema 3.3.3. Dacă variabila aleatoare X are repartiție binomială cu exponent 
negativ cu parametrii m şi p, atunci valoarea medie şi dispersia sa sunt 


EUOO=", VarQ0)= (3.3.2) 
p p 


PR 


Demonstraţie 
Valoarea medie a variabilei aleatoare X este 


E(X) = mC"p"q* + (m + DC” p"q+ (m 4250” 1 pg? po. 


m+l 


Pentru a calcula suma seriei de mai sus, pornim de la dezvoltarea în serie de 
puteri a funcţiei (|—x) ” , şi anume 


a, m(m+ 1) 2 i 


(1—x)” = i i 


.,  xe(-LD. 


Pentru m e N' seria binomială de mai sus se scrie sub forma 
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00 
(= 39" = Cp Curt Cap to XC”, xe Cl) 
k=m 
sau 
m+ 


(1-3) = Co + Cmx+ Cha ee Cea, xe(-ll). (3.3.3) 
k=m 


Folosind seria de mai sus (cu x=q), observăm că suma tuturor probabilităților 
de pe linia a doua a tabloului repartiţiei variabilei X este 7. Într-adevăr 


- m-l „m „k-m m = m —m m —m l =: 
ÎCep"a*” = p" Cea” = p"(l-q) (1-4) =] 
k=m k-=m 


Numele repartiției binomiale cu exponent negativ provine din observaţia că 
termenii P(X =k)=C"ip"q“”, k > msunt termenii generali ai dezvoltării 


t-3): 


Relaţia (3.3.3) se scrie echivalent astfel 


SS Cta (3.3.4) 

Derivând relaţia (3.3.4) obținem 

ap = She pa tele În (3.3.5) 
da k=m 

Pentru x=g din relaţia (3.3.5) deducem 


PI = O ACrqr. (3.3.6) 
p 


Atunci valoarea medie a variabilei X este, folosind relația (3.3.6) 


-—l 


m+l 


E(X) = DIC pă "pg E "g —m+l ici ra -—l a p”q —m+l a 2 = 
k=m 


Pentru a calcula dispersia variabilei X, vom calcula mai întâi E(X?), şi 
anume 


8l 


E?) = > pe pia d Gat 


k=m 


Înmulţim relaţia (3.3.5) cu x şi obținem 


d TE mă Ex axei): 


Prin derivarea relaţiei de mai sus rezultă 


le ua A > Cmixt xe(-1]). 


Pentru x=g din relaţia obținută deducem 


Rezultă atunci că E(X?) este 


mg d “m(m+q) _mon+ 4) 
m+2 p d 


p 


E(X)= p"gq 


iar dispersia varaibilei aleatoare X este 


m” + mg m” mg 
2 Pai 


p p 


Var(X0) = EX) -LEUOOI = 


q.e.d. 


Propoziția 3.3.4. Dacă variabila aleatoare X are repartiție binomială cu 
exponent negativ cu parametrii n şi p, atunci funcţia sa caracteristică este 


oo] RE :bER, (3.3.7) 
l-qe 


Demonstraţie 
Conform formulei pentru funcția caracteristică avem 
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p(£) 2 XC pgerae Si pipi? DS (ge) 
k=m k=m 


l-qe 
conform relației (3.3.3), care este adevărată şi pentru numere complexe 
xecC, |xkl. g.e.d. 


i NR 
m itm it —m pe 
= p"e'"(l-qe") -l „VteR, 


Pentru m=1 legea binomială cu exponent negativ cu parametrul p se mai 
numeşte legea geometrică cu parametrul p. Tabloul repartiției unei variabile 
aleatoare X cu repartiție geometrică cu parametrul p este următorul 


| 3 3 isi 
X: m 0 m m 2 
Pda Pa pa 
unde q=/-p. Conform relaţiilor (3.3.2) şi (3.3.7) media, dispersia şi funcţia 
caracteristică ale lui X sunt 


it 


1 
E0D=—, Var 00)=-Î, pl Pre. 
p p l-qe 


2 


3.4. Legea hipergeometrică 


Definiţia 3.4.1. Variabila aleatoare X urmează legea hipergeometrică (X are 
repartiție hipergeometrică) cu parametrii a, b şi n (a,b,ne N, n<a+b) dacă 
poate lua orice valoare întreagă între max(0,n — b) şi min(n,a) şi 


A 0 A 
P(X =k)= Ci „ Vk e[max(0,n —b),min(n,a)]. (3.4.1) 
a+b 


Pentru calculul mediei şi dispersiei variabilei aleatoare X cu repartiție 
hipergeometrică vom presupune fără a restrânge generalitatea problemei că 
n<bşi n<a, deci max(0,n—b)=0 şi min(n,a)=n. Atunci tabloul repartiției 


variabilei X este 
() l 2 dea n 
Aa: ace Ca» Caii C;C, |. 
C" C" C" sai C" 


a+b a+b a+b 
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Se observă că suma probabilităților de pe linia a doua a tabloului de mai sus este 
[. Într-adevăr avem 


n-k 
arie al za Îi 
ce C, 


a+b i k=0 


Exemplul 3.4.2. Dacă dintr-o urnă care conține a bile albe şi b bile negre se 
extrag n bile una câte una, fără întoarcerea bilei extrase în urnă (sau se extrag n 
bile simultan), iar X este numărul de bile albe extrase, atunci X are repartiție 
hipergeometrică cu parametrii a, b şi n, conform schemei hipergeometrice 
(schema bilei neîntoarse). 


Teorema 3.4.3. Dacă variabila aleatoare X are repartiție hipergeometrică cu 
parametrii a, bşi n, cu n<bşi n<a, atunci valoarea medie şi dispersia sa 
sunt 

a+b-—n 


E(X)=ap, Var(X)=npa————, (3.4.2) 
a+b-l 


a 
unde p= „q=l-p= “ 
i a+b d & a+b 


Demonstraţie 
Valoarea medie a variabilei aleatoare X este 


04 9 EL n=k _ Zi an 
Bo) SIA a 69 og Ca = ap. 
Sul in > d Xe Tan SR e 


a+b 


Pentru calculul dispersiei, vom calcula mai întâi media variabilei X?; avem 
> 


n dei iai n 0 a n 6 Eh 
EX he. = = k(k 1 0 Sk aie 
k=0 a+b k=1 a+b k=0 a+b 
_ aţa — ce 201% + BUD) = a(a — Dor, „an an(a —l)(n —1) 
Co 3 (a a+b (a+b)a+b-l) 
an 
a+b. 


Deci dispersia lui X este 
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an(a —l)(n-1) , an du 
(a+băa+b-D a+b (a+b) 
abn(a+b-n) _ a+b-n 
PISTEI ET) a PTR 


Var(X) = E(X?)-LEQOOI = 


Folosind modelul urnei din Exemplul 3.4.2, valoarea medie a variabilei X 
din problemă se poate calcula şi în felul următor. Considerăm o urnă cu a bile 
albe şi b bile negre din care se extrag una câte una n bile (fără întoarcerea bilei în 
urnă) şi considerăm variabilele aleatoare X, , pentru k = 1,2,...,n, unde variabila 
X, (k=1,2,...,n) are ca valori numărul de bile albe obţinute la extragerea k (J 


dacă obținem bilă albă şi 0 dacă obţinem bilă neagră). Pentru X, „avem 


a b 
P(A = „ P(X =0)=——. 
aa) a+b Gat a a+b 
l 0) 
Deci tabloul repartiţiei variabilei X, esteX : a b |. Pentru variabila 
a+b a+b 


X, obținem (în urnă au rămas a+b-/ bile) 


PUX, = D= PU, 11 X, = DP(X, =D+ PU, =1/X, =0)P(X, =0) 
= Asa e E b _ a(a+b-l) _ a 

a+b-l a+b a+b-l a+b (a+b-D(a+b)) a+b' 

PX, =0) = P(X, =0/X, =DPUX, =D+ POE, =0/X, =0)P(X, =0) 
b a Ob bb  b(a+b-D 

a+b-l a+b a+b-l a+b (arb(a+b-D ard! 


l 9) 
Deci tabloul repartiţiei variabilei X„este X”, : a b  |.Pentru variabila 
a+b a+b 


X, avem (în urnă au rămas a+b-2 bile) 


PX, =D= PO, =1/X, =DP(X, =D+ PU, =1/X, = 0P(X, =0) 
= [P((E, =1/X, = DX, = DP(E, =D+ P(E, =1/X, =0/ă, 

= 0)P(X, = 0]P(X, = D+P((E, =1/X, =0)/X, = DP, =D+ 

+ P((XE, =1/X, =0)/X, = 0 P(X, = 0)IP(X, =0) 
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hi aie dei e 20 b 7 II SC mt a 

(5 2 a+b ab (i 
a b b (a 2)a? + 2(a—Dab + ab? 

a+b i): b_OO(arb-2Xa+b) 

_a(a+bh)(a+b-2)_ a 

“(a+b-=2%a+b) a+b! 


Asemănător se arată căP(X, =0)= : 3 (=1- PX, =1)). Deci tabloul 
a 


l 0 
repartiţiei variabilei X, este X, : a b 
a+b a+b 


Se arată în acelaşi mod că toate variabilele X,, k =1,2,...,n au acelaşi tablou 


l 4) 
de repartiție X,: a b |, K=1,2,...„n, (deşi ele sunt variabile 
a+b a+b 


dependente). 
Cu ajutorul variabilelor X,, k =1,2,...,n, variabila X se scrie X = A, A 


k=l 
deci media variabilei X este 


n 


E(X) = EL)= DR 


za ab a+b 


a na 


= np. 


Pentru dispersie nu mai putem scrie că Var(X')este egală cu Vară 5) 
k=l 


deoarece variabilele X,, k =1,2,...,n nu sunt independente. q.e.d. 


3.5. Legea Poisson (legea evenimentelor rare) 


Definiţia 3.5.1. Variabila aleatoare X urmează legea Poisson (X are repartiție 
Poisson) cu parametrul A (A > 0) dacă poate lua orice valoare întreagă pozitivă 


ŞI 


k 


P(x == ret, k =0,1,2,... (3.5.0) 
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Tabloul repartiției variabilei X este 


(0) l 2 A k 
X: 0 1 2 k 

A e? 4 e? A pna se A e-i 

O! I! 2! k! 


Pentru a verifica că suma probabilităților de pe linia a doua a tabloului de mai 
sus este /, vom folosi dezvoltarea în serie de puteri a funcţiei f(x)=e', 
şi anume 
i AR a XE 


e =1+—4 E eseq Fr... VxeR. (3.5.2) 
I! 2! k! 


Folosind relaţia (3.5.2) pentru x = 4, avem 
k 


PX =fj=e? d. zel, 
k=0 k=0 k! 


Teorema 3.5.2. Dacă variabila aleatoare X are repartiție Poisson cu 
parametrul A, atunci valoarea medie şi dispersia sa sunt 


E(0)=4, VarO=4. (3.5.3) 


Demonstraţie 
Valoarea medie a variabilei X este 


k-l 
A — Â -A 


=1e et =. 
i (1)! 


[=] k 
E(X)= Se = e 


k=0 


Pentru dispersie, calculăm mai întâi media variabilei X?. Obţinem 


= oo Ș AF = [=] 3 AK $, E) AK E: E) pi i 
E(X) = ke = Y (e —k) ei + Sk ei => kk) —e 
k=0 k! K=I k! per 2, k=2 k! 
00 k-2 
+ E(X)= Pe? + E) = Pe tef +1 =147 +A. 
+2 (2)! 


Atunci dispersia lui X este 
Var(X) = E(X?)-—LEGIO = 17 +4 — 47 = A.q.e.d. 
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Propoziția 3.5.3. Dacă variabila aleatoare X are repartiție Poisson cu 
parametrul A, atunci funcția sa caracteristică este 


p(r)=e*D, tea. (3.5.4) 


Demonstraţie 
Folosind formula de calcul de la funcţia caracteristică, avem 


=) k it 

p(0) = IE gi = ci pik e S i = Apel = ge), VteR. 
20 K- 20 

q.e.d. 


Teorema 3.5.4. Variabilele aleatoare independente X, şi X„au repartiţii 
Poisson cu parametrii A, şi respectiv A, . Atunci variabila aleatoare X, + X, 


are repartiție Poisson cu parametrul A, + A. 


Demonstraţie 
Variabila aleatoare X, + X„are ca valori pe 0,1,2,... Fie k >0 întreg. 
Atunci avem 


L 
PU, +Ă, -p=PU e = j, 4 si) 23 poe = j, 4 =k-]) 
i=0 


k k i 7 igu (Ah) 


E 3 e pci 
= 5 P(X, = j)P(X, =k— je heh = — 9 CIA 
2, a k! 2 ii 

a (4, a path). 


Deducem astfel că variabila aleatoare X,+X,are repartiție Poisson cu 
parametrul A, + 4. Folosind funcţiile caracteristice ale variabilelor X,, X,, 
exprimate cu ajutorul formulei (3.5.4), şi anume 
p(0)=e%P,p,(0)=ek Pre, deducem că funcția caracteristică a 
variabilei X, + X, este 

p(0)= pi (pai) = Des zei), vrea. 


Din expresia de mai sus a funcției caracteristice rezultă că variabila X, + X, are 
repartiție Poisson cu parametrul 4, + 4,.. q.e.d. 


Legătura dintre repartiția binomială şi repartiția Poisson este dată de 
următoarea teoremă. 
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Teorema 3.5.5. Fie k e N fixat, iar pentru n > k considerăm variabilele X, care 
au repartiţii binomiale cu parametrii n şi p, „astfel încât toate să aibă aceeaşi 
valoare medie î. Atunci are loc relaţia 


k 
lim P(X, -p= ei. (3.5.5) 


Rezolvare 

Deoarece variabilele X,, n > kau aceeaşi valoare medie 4, deducem 
conform primei relații din (3.5.3) că valoarea medie a acestor variabile este 
E(X,) = np, = A. Deci p, =4/n. Atunci obţinem 


k n-—k 
im PU, = 6) tim Cpt = im IDD 4] ! -) 


no k! n n 
k — ... — ză K 
_Ă lim PN D) (n ela l Â _Ă pă 
k! ne n noa n K 
adică relaţia (3.5.5). g.e.d. 


Observaţia 3.5.6. Relația (3.5.5) ne arată că dacă p,este suficient de mic şi n 
suficient de mare, atunci putem aproxima repartiția binomială cu parametrii n şi 
p,, prin repartiția Poisson de parametru A =np,. Din acest motiv repartiția 
Poisson se mai numeşte legea evenimentelor rare. Dacă n > 30şi np <5 atunci 
repartiția Poisson cu parametrul A = np este o bună aproximare a repartiției 
binomiale cu parametrii n şi p. 

Aplicația 3.5.7. Să se calculeze momentele inițiale m, (X) şi m,(X), precum şi 
momentele centrate u(X) şi u,„(X) pentru o variabilă aleatoare X cu 
repartiție Poisson cu parametrul A. 


Rezolvare 
Din demonstrația teoremei 3.5.2 ştim că m(Ă)=E(X)=A, iar 
m,(X) = E(X?)= 1 +A. Momentul iniţial de ordinul al treilea al variabilei X 
k 


este m(X)= E(X)= > ei 
k=0 . 


Deoarece k? = k(k —I)(k —2)+3k(k—D+k, vom scrie pe m,(X) astfel 
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SD 2) +39 Dl e SA e 
m (0) = SR = 29 +3 Se 
k=2 k! Kk=l k=l k! 


Ar-3 E) AZ 00 A 1 
= pe +31204+5 He 

= (ea)! Pa A=2 (4 DI 
3 atei Aa te! e A 43424 A 


fe let 
e 


Apoi momentul centrat de ordinul al treilea este 


(00) = E(X 4) = EX —34X* +34 X — 14) = E) 34E(X*) 
+342E(X)— 1 = m, —3Am, + 317 m, — 9 = 19 + 340 + 4 —34(47 +4) 
+34 — 142 =A. 


Pentru momentul inițial de ordinul al patrulea avem 
[e) JA 
m (0) = E(X) = Yk* șa „Deoarece 
k=0 . 


k* = k(k —D(k —2)(k —3)+ 6k(k —D(hk —2)+ 7k(k —1)+ k, momentul m,(Ă) se 
scrie astfel 


m(X)= SK D( 24% ui ga pe 0 ou 


[e] k-4 [e] Ea 


= LI i -4 = jel A 1304 
ID i); + aie He 2 at de Ira 5 


=) co k-l 
+7 uzat > i casti 2 4 = je te? +6]îe te? +7/e le? 
3 (ke — 2 (1)! 
+ Aetet = 14 +64 +14 +A. 


Apoi momentul centrat de ordinul al patrulea este 
ui (A) = EX — 14)" = EX — 44% + 677% 440 + 11)= E(X*) 


—41E(X)+ 640 E(X*)— 495 E(X)+ 1% = m, —4âm, +64m, —41m, + 1 
= 4% +64 +747 +4 —44(45 + 347 + 4)+ 647 (47 + 4)— 410 +11 =347 +4. 
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Capitolul 4 


Legi clasice de probabilitate (repartiţii) ale 
variabilelor aleatoare continue 


Introducere 


Vom prezenta în acest capitol principalele legi de probabilitate ale 
variabilelor aleatoare continue, şi anume: legea continuă uniformă (rectangulară), 
legea normală (Gauss-Laplace), legea log-normală, legea gamma, legea beta, 


legea 7” (Helmert-Pearson), legea Student (t) şi cazul său particular legea 


Cauchy, legea Snedecor şi legea Fisher, legea Weibull şi cazul său particular 
legea exponențială. 


4.1. Legea continuă uniformă (rectangulară) 


Definiţia 4.1.1. Variabila aleatoare X urmează legea continuă uniformă 
(rectangulară)  (X are repartiție uniformă) cu  parametii puşi 
o (ue R, o >0)dacă densitatea sa de probabilitate (repartiție) este funcția 


EX se|u=€ +9] 
Aaaa Da (4.1.0) 


0, se| 00, LI Ul p+ 9) 


Observăm că funcția / este o densitate de probabilitate, deoarece 
f(x)>0, VvxeR, şi 


[.roa=| i: Le 


ŢI 
un (49) O 


Funcţia de repartiție a variabilei X este 
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F(x) = | ue) se n-au], (4.1.2) 


Figura 4.1.1] Figura 4.1.2 


Teorema 4.1.2. Dacă variabila aleatoare X are repartiție uniformă cu 
parametrii vu şi o, atunci valoarea medie şi dispersia sa sunt 


02 


E(A)=u, dd ia (4.1.3) 
Demonstraţie 
Valoarea medie a variabilei X este 
E(X) =. Xf (x) dx = | a = | N a =, 
= Hai (49) 20 N 


iar dispersia sa este 


[49] 
u+— 7) 


2 


pa 17 


Var) [Lta- po fo a [2 =? La pi) 
q.e.d. 


Propoziția 4.1.3. Funcția caracteristică a unei variabile aleatoare X cu 
repartiție uniformă cu parametrii ui şi c este 
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p(2)=+t0 
Il, 1=0 
Demonstraţie 
Pentru 1720, avem 
Esi itx l pre itx l itx A 
p(=] e fodax=—]| 2e'* dx =—e 
700 Wu-3 LO 


iar p(0)= Î. f(ddx=l. 


(4.1.4) 


q.e.d. 


Aplicația 4.1.4. Să se calculeze momentele m,(X), m,(X) şi u(X) pentru o 


variabilă aleatoare X cu repartiție uniformă cu parametrii ui şi o. 


Rezolvare 
Momentul inițial de ordinul al doilea este 


o 3 
zf de ee n leoaica a „i ai 
m(U0)= [x Pa =], pi dx = za A: lee. u+ : 


o 1 it cati) pd 

= 3 i = 

[ = | Ma A 12 
Apoi momentul inițial de ordinul al treilea este 


o al l 
m) | fa | 23 —di=—x 
00 di O 40 


2 


4 
(2) l 2 3 3 uO 
= 4uo+uo)=pu+ i 
n -) | 2 ee Ho )= 4 


iar momentul centrat de ordinul al treilea este 


00 [= po poas= [2 pi Las Dap]? 
za n [42] 40 
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Aplicația 4.1.5. Variabilele aleatoare X şi Y sunt independente. X are repartiție 
uniformă pe intervalul [0,1], iar Y are repartiție uniformă pe intervalul [0,2]. Să 
se calculeze densitatea de probabilitate a variabilei X+Y. 


Rezolvare 
Dacă f, şi f,„sunt densităţile de probabilitate ale variabilelor aleatoare 4 


şi respectiv Y, atunci Î. fio)dx=1 şi [. f.(o)dx = 1. Deducem din aceste 
relații că parametrii variabilei X sunt o, = şi ui, = Ea iar parametrii variabilei Y 


sunt o, =2şi 4, =. Atunci densităţile de probabilitate vor avea forma 


e [0,2], 


l 
SE, L, x e [0.1], _ JA? 
nod zeta, ROI 


£ [0.2]. 


Deoarece X şi Y sunt independente, densitatea de probabilitate a variabilei 
X+Y este dată de formula 


frf. 


Observăm că f(x —y)z0 pentru x — y e[0,1] sau echivalent y e[x-—1,x], iar 
f„()z Opentru y [0,2]. Deci fi(x—y)f/,() z Opentru y e [x —1,x][1[0,2]. 
Avem următoarele patru cazuri: 

a) Dacă x [0,3], atunci [x —1.,x][1[0,2]= O, deci f(x)=0. 

b) Dacă xe[0,1), atunci [x —1,x][1[0,2]=[0,x] şi 


=], fa fda= [= „= 

c) Dacă xe[1,2), atunci [x —1,x][1[0,2]=[x—1,x] şi 
l 
f9= Fero] La za 


d) Dacă x e [2,3], atunci [x —1,x] [0,2] = [x —1,2] şi 


3-—x 


ro= [re vrodb=[zo=3 


94 


Deci densitatea de probabilitate a variabilei X+Y este funcția 


x/2, x e[0,]), 

1/2, x e[1,2), 
(o) = 

(3-x)/2, xe[23], 

0, x £[0,3]. 


4.2. Legea normală (Gauss-Laplace). Legea normală standard 
(legea normală centrată redusă) 


Definiţia 4.2.1. Variabila aleatoare X urmează legea normală (Gauss-Laplace) 
(X are repartiție normală) cu parametrii m şi o (me R,o > 0) dacă densitatea 
sa de probabilitate (repartiție) este funcţia 


la-m) 


în 200 i ASR. (4.2.1) 


l 


ON 21 


O variabilă aleatoare cu repartiție normală cu parametrii m şi o se notează 
cu N(m,0?). 

Funcţia f de mai sus se numeşte densitatea de repartiție normală sau 
gaussiană. Observăm că f este o densitate de probabilitate, deoarece 


f(x;m,o)= 


F(Q0)>0, vxeR şi Î. f(x)dx = 1. Într-adevăr, pentru a verifica ultima relație, 
x—m 
ov2 


dx =oV2 dy. Dacă x— atunci y——0, iar dacă x —ooatunci y—o0. 
Obţinem astfel 


în integrala de mai sus facem schimbarea de variabilă 


= y. Rezultă că 


00 ] 00 2 2 00 2 
(d =——| e” dy=-——=| e” dz. 
[i 7 If 7 | 
Am folosit mai sus integrala lui Euler-Poisson [e dy =Nn 2. 


Graficul funcţiei / are formă de clopot (vezi Figura 4.2.1). Dreapta de 
ecuaţie x = meste axă de simetrie pentru acest grafic, iar pentru x = m se obține 


| 
OV271 


valoarea maximă a funcției f, şi anume 


. Punctele x=m-o şi x=m+o 


sunt puncte de inflexiune. 
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Figura 4.2.1 


Pentru m= O0şio =1 funcția f dată de relaţia (4.2.1) devine 


2 
x 


La ap. (4.2.2) 


NpI 


Vom spune despre o variabilă aleatoare X care are ca densitate de 
probabilitate funcţia (4.2.2) că urmează legea normală standard sau legea 
normală centrată redusă. 

Pentru a determina funcția de repartiție F(x;m,o) a unei variabile aleatoare 


Ff(x;0,1)= 


X cu repartiție normală cu parametrii m şi o, vom determina mai întâi funcția de 
repartiție pentru o variabilă aleatoare cu repartiție normală standard, notată cu 
F(x;0,1) şi numită funcția de repartiție normală standard. Conform relației de 
legătură dintre f şi F, avem 


F(x0,D= [, F(GO,Ddr= Î. F(60,Ddt+ IN £(60,Ddt +00), (4.2.3) 


unde  O(x)= “2 dt. Funcţia Pde mai sus se numeşte funcția 


] x 
e 
DT 0 inta 
integrală a lui Laplace, pentru valorile căreia sunt întocmite tabele. 

Dacă variabila aleatoare X urmează legea normală cu parametrii m şi 


e căt d l a i 
O, atunci variabila aleatoare Y = —(X —m) urmează legea normală cu parametrii 
[o 


O şi 1. Într-adevăr, dacă Fi este funcţia de repartiție a variabilei Y, atunci 
F(x) = PY <x)= PX <m+o0x)= F(m+o0x;m,o), (4.2.4) 


iar densitatea de probabilitate a variabilei Y este 
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be 


Jora 


Deci F(x)=F(x;0,), xeR, adică variabila Y urmează legea normală cu 
parametrii O şi 1. Din ultima relație şi relaţia (4.2.4) obținem 


fi) = Fi()=o f(m+ox;m,o0)= ala = f(;0,D), VxeR. 


F(x;0,D= F(m+o0x;m,o), xeR. (4.2.5) 


Rezultă astfel că pentru variabila aleatoare X cu repartiție normală cu 
parametrii m şi o, funcţia de repartiție este 


Rima) rio) 30222) (4.2.6) 
[e 2 [o 


Teorema 4.2.2. Dacă variabila aleatoare X are repartiție normală cu parametrii 
m şi G,atunci valoarea medie şi dispersia sa sunt 


E(X)=m, Var(X)=o?. (4.2.7) 


Demonstraţie 
Valoarea medie a variabilei aleatoare X este 


(m) 
EUO)= | rimoa= == | ae 
X—m 


În integrala de mai sus vom face schimbarea de variabilă = y, de unde 


rezultă dx = o dy; pentru x — —orezultă y — —o0, iar pentru x — corezultă 
y— o. Deci obținem 


E(X) = me” "0 dy = =. pe? dy 


la te 
e pe pi 


+ fe" = nf F(;0,l)dy = m. 


N21 > 


Dispersia variabilei X este 


la-m) 


Var(X) = [pe (x — m)” f(x;m,o) dx = 20 dx, 


3 4 (x—m)e 
OV2r ice 


97 


Folosind î de variabilă de mai sus, ODpnetA 


Var(X) = 


|. o2y 2 e” 2ody=-— 


Ezra 
ip Pt -y ll 9 a 


2 
00 2 
+—] ge die 
T —00 


Deducem de aici că abaterea medie pătratică a variabilei X este o, =o. g.ed. 
Propoziția 4.2.3. Dacă variabila aleatoare X are repartiție normală cu 
parametrii m şi O, atunci funcția sa caracteristică este 
imt——— 
p(i)=e 2, teR. 


(4.2.8) 


Demonstraţie 
Funcția caracteristică a variabilei X este 


E m E: ae 20 2itx 


o Ea: i 


(= | e" fă = 


x2—2x(m+0?it)+(m+o02it)+m? (m+o02it)? 


l 3 
= ] e za -e 2% dx 
OxN21 ** 
m2+0%i202+2mito2—m? [x—Am+o2i0)P? 
Sl “a ve 20 dx, teR 
Ox ză că 


x—(m+o2it) 


ov2 


Folosind schimbarea de variabilă =u, obținem 


l up Se 00 2 imt=— 
a aa a [e duze” 2, vre R.g.ed. 


Propoziția 4.2.4. Dacă variabila aleatoare X are repartiție normală cu 
parametrii mşi o,iar a,b,keR, k>0, atunci 


a) pus o) =aj 2] an) (4.2.9) 
O 


O 
5) P(X-mkko)=204). (4.2.10) 
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Demonstraţie 
a) Din relația (4.2.6) şi continuitatea funcției F' deducem că 


Pac X 09 Flbimio)- Ftaimo)| | 022) : | o[«2) 
5 o 2 
(222) af) 

a o 


b) Conform relaţiei (4.2.9) obținem 


P(|X —m ko) = P(m-ko < X <m+ko) = b(k)- b(-hk) = 20(h), 
deoarece funcția O este impară (b(-h)=-b(4)). q.e.d. 
Observaţia 4.2.5. Dacă luăm k = 3 în relaţia (4.2.10) rezultă 

P(X —m 30) = 2b(3) = 0,9974. (4.2.11) 
Relaţia (4.2.11) ne spune că aproape toate valorile variabilei X sunt situate în 
intervalul (m -—36,m+30). Egalitatea din (4.2.11) este cunoscută sub numele 


de regula celor şase o. 


Propoziția 4.2.6. Dacă variabila aleatoare X are repartiție normală cu 
parametrii m şi O, atunci momentele sale centrate sunt 


Hap(00=0, pp(A)=Q0p-Dio?, VpeN, (42.12) 
unde (2p-—1)!!=1.3:5:::0p-l). 


Demonstraţie 
Momentul centrat de ordinul 4 este 


tam) 


ici k l % k 202 
u00)= m Pod == op: | (mie d. (42.13) 


Obţinem astfel 


HO = [far =1 00| (sm fodr=0, m00=Var00)=0?. 
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Pentru k > 2, în integrala din relaţia (4.2.13) vom face schimbarea de variabilă 
X — 
e 


y——, iar pentru x — oo rezultă y — co. Obţinem atunci 


=y, de unde deducem că dx = oxN2 dy; apoi pentru x -— —corezultă 


GAC [we = BCA Dry (ra 


u(Ă)= 


ef pes 


Go) (02)? i 


mă, 


2 = 
e” dy 


= (&-D pe dy=(k-Do?,. 

Nr JE k-2 
Deci am dedus relația de recurenţă 
u, 00) = (k Do”, (X). Deoarece u(X)=1, u(X)=0, din relaţia de mai 
sus rezultă relaţiile (4.2.12). q.e.d. 


Propoziția 4.2.7. Dacă variabiele aleatoare indepedente X şi Y au repartiții 
normale cu parametrii m, şi O, „respectiv m,şi 0, atunci variabilele X+Y şi 


a ul E . 2 2 
X-Y au repartiții normale cu parametrii m=m,+m,şi O=AlO, +05, 
. . 2 2 
respectiv m= m, —m,şi O=Ao; +03. 


Demonstraţie 

Vom calcula mai întâi densităţile de probabilitate pentru variabilele 4+Y 
şi X-Y, pentru cazul particular m, = m, =0 şi o, =o0, =1. Dacă notăm cu f şi g 
densitățile de probabilitate ale variabilelor X şi Y, atunci conform relației (4.2.2) 
avem 


fo) seta)”, VxeR. 


Densitatea de probabilitate a variabilei X+Y este 
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00 | eo = y | (-) 
ho) [fa vea —|e 2 e 2 =] zi 
% 27 Dire a 
ge „tai pă : x y-x/2=z ai Ra 5 zi 
gti | ) e tdy = Esi! e? dz= l e 4 
27% 27 =% 27 
i 202) „ VxeR. 


"Pralea 


Deducem astfel că X+Y urmează şi ea legea normală cu parametrii m = Oşi 


o=y2. 
Asemănător pentru densitatea de probabilitate a variabilei aleatoare X-Y 
obținem 


00 | eo Scade = | e (iron) 
Ko]. f+ eo) = e e 2dy=—| e dy 
i 2 2r se 
do 7] + i E +x/2=z A ae, Fi Ea 
SEa stai e iq = Lei] pei Ai Al mona 
27 Yo 27 —00 2 


2 


l = 
e 22) „ VxeR. 


"Pe 


Rezultă că X-Y urmează legea normală cu parametrii m = 0şi o =2. 
In cazul general al variabilelor X şi Y cu repartiţii normale cu parametrii m, şi 
O, respectiv m, şi 0, putem să facem un calcul asemănător celui de sus, sau se 


poate raționa mai simplu folosind funcțiile caracteristice ale variabilelor. 
Conform relaţiei (4.2.8) funcțiile caracteristice ale variabilelor X şi Y sunt 


2,2 2,2 


im Si imat- 92 
p(D=e 2, (ze 2, VreR. 


Atunci funcția caracteristică a variabilei aleatoare X+Y este 


2 


Dad 
| (otro2) 
îm hi 


p(0) = 0,(0):0-(0)=e 2 VteR. 


Se observă că g este tocmai funcția caracteristică corespunzătoare legii normale 


za ; 2 2 
cu parametrii m=m,+m,şi 0=ANo, +0. 


Asemănător funcția caracteristică a variabilei aleatoare X-Y este 
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let:c)e 
îm mt 2 


Ș(D=0(9:p(0=e 2 VteR, 


Se observă că este funcția caracteristică corespunzătoare legii normale cu 
parametrii m= m, —m,şi oo. +03. q.e.d. 


Legea normală reprezintă „cazul limită” al multor legi de probabilitate. 
Astfel menţionăm următorul rezultat de legătură între repartiția normală şi 
repartiția Poisson. 


Teorema 4.2.8. Dacă variabila aleatoare X, (4 >0) are repartiție Poisson cu 


XX, —A 
Zi tinde 


PI 


parametrul A, atunci funcţia de repartiție a variabilei aleatoare 


către funcţia de repartiție normală standard, pentru A — o. 


Pete i 


SF) 


În ipotezele Teoremei 4.2.8 se mai spune că variabila aleatoare este 


asimptotic normală. 


Legătura dintre repartiția binomială şi repartiţia normală este dată în 
următoarea teoremă. 


Teorema 4.2.9. (Moivre-Laplace) Dacă variabila aleatoare X, are repartiție 


binomială cu parametrii n şi p (p nu depinde de n), iar X are repartiție normală 
standard, atunci 


lim P sa a 00 aj = P(a<X <b)= 


no Înpa 


Teorema 4.2.9 ne spune că pentru valori mari ale lui n putem folosi tabelele 
legii normale pentru studiul variabilelor aleatoare cu repartiţii binomiale. Pentru 
n > 30, există următoarea regulă practică care ne permite să aproximăm repartiţia 
binomială prin cea normală: 

- Dacă min (np,nq) > 10, atunci aproximarea este foarte bună. 


> da. (4.2.14) 


] b 
Dle 


- Dacă min(np,nq)e (5,10), atunci aproximarea este acceptabilă, dacă nu 
este nevoie de mare precizie. 
- Dacă min (np,nq) < 5, atunci nu se foloseşte această aproximare. 


Teorema lui Moivre-Laplace este un caz particular al aşa numitei Zeorema 
limită centrală, care spune că funcția de repartiție a unei sume de variabile 
aleatoare independente tinde în condiţii destul de generale către funcția de 
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repartiție normală. De fapt, prin Teorema limită centrală se înțelege un grup de 
teoreme care tratează problema repartiției limită a sumelor de variabile aleatoare 
(nu întotdeauna independente). Rezultatul cel mai general în cazul variabilelor 
aleatoare independente este teorema lui Lindeberg-Fellar. În aplicaţii este foarte 
util un caz particular al acestei teoreme, prezentat mai jos. 


Teorema  4.2.10. (Liapunov) Fie variabilele aleatoare independente 


X,, n>lcu mediile şi dispersiile m, = E(X,), o; =Var(X,), nl, care au 

momente centrate absolute de ordinul al treilea p; = E(|X,—m,|), nl. 

Dacă im 20 =0, unde o(n) = Jo: +03 +..:+05 şi 
ne O(n 


p(n) = ip: +p3+---+p>, atunci lim F,(x)= F(x;0,0), unde F, este funcția 


i Su, —m,). 


o(n) 13 


de repartiție a variabilei aleatoare X = 


Aplicația 4.2.11. Se aruncă o monedă de 256 de ori. Care este probabilitatea ca 
numărul de apariţii ale „stemei ” să fie cuprins între 112 şi 144? 


Rezolvare 

Să notăm cu X variabila aleatoare care are ca valori numărul de apariţii 
ale „stemei”, atunci când se aruncă moneda de 256 de ori. Variabila X are 
repartiţia binomială cu parametrii n=256 şi p=1/2 (probabilitatea ca la o aruncare 
să apară „stema”). În această aplicaţie trebuie să calculăm P(112<X<144). 


Deoarece E(X)=np=128, iar o, = jnpq = 8,atunci are loc relația 


PUI2< X <144)= 7-2 Lica <2) 


Vom folosi Teorema 4.2.9 (Moivre-Laplace) şi vom aproxima repartiția 
X —128 


cu repartiția normală standard Y. Obţinem 


7 2< <2j=r 2<Y <2)=P(0)—-0(—2) =20(2) = 0,95. 


Aplicația 4.2.12. De câte ori trebuie să aruncăm un zar corect astfel încât 
probabilitatea ca abaterea frecvenţei relative a feţei | de la numărul p=1/6 să 
fie cuprinsă între -0,03 şi 0,03, este 0,95. 


Rezolvare 
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Dacă în n aruncări faţa 1 apare de a, ori, vom determina pe n astfel încât 
să aibă loc relația 


[94 


z(- 0,03 < “1 -p< 003] = 0,95. (4.2.15) 


n 
n 


Relaţia (4.2.15) se mai poate scrie astfel 
a, —np| 0,031 


Aki fi 


Folosind relaţiile (4.2.14) şi (4.2.9) (cu m=0, o =1) pentru b=-a= 


jos q=l-p=2i (4.2.16) 


0,03/n 
pa 


din relaţia (4.2.16) deducem că 


2] 90351 |_095 = | O182 |_ 0,75 
Na VS 


018yn]_1 [018 
pina) a ac 


= 0,975. 

2 

Folosind un tabel cu valorile funcţiei O, rezultă că 0,18Vn//5 =1,96. Obţinem 
n = 592,8. Deci trebuie să aruncăm zarul de 593 de ori pentru a fi verificată 
relația (4.2.15). 


Aplicația 4.2.13. O maşină produce o piesă circulară. Piesa este bună dacă 
diametrul său d este cuprins între 3,99 cm şi 4,01 cm. Care este probabilitatea 
producerii unei piese defecte de către maşina respectivă, ştiind că d are 
repartiție normală cu media 4,002 cm şi abaterea medie pătratică 0,005 cm ? 


Rezolvare 
Conform formulei (4.2.9), probabilitatea ca o piesă să fie bună este 


P(3,99< d <401)= ae) o[* 22) _ | 4:01-4.002 
ȘI o 0,005 


02% — 4,002 


= P(1,6)- b(-2,4) = 0(1,6)+ b(2,4) = 0,937. 
e] (1,6) — b(-2,4) = P(,6)+ b(244) 


Rezultă atunci că probabilitatea ca piesa să fie defectă este 1-0,937=0,063. 
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Aplicația 4.2.14. O maşină produce o piesă circulară. Când maşina este bine 
reglată, diametrul d al pieselor are repartiție normală cu media 10 cm şi 
abaterea medie pătratică 0,08 cm. Se iau la întâmplare 4 piese fabricate de 
maşină şi se constată că media aritmetică a diametrelor acestor piese este 10,14 
cm. Se poate afirma că maşina s-a dereglat ? 


Rezolvare 

Fie d,,d,, d, d, diametrele celor 4 piese alese la întâmplare. Acestea sunt 
4 variabile aleatoare indepedente cu repartiţii normale cu media 10 cm şi 
abaterea medie pătratică 0,08. Atunci variabila d = (d, +d, +d, +d,)/4 are de 


asemenea repartiție normală cu media 10 cm şi abaterea medie pătratică 0,04 cm. 
Într-adevăr, avem 


4 
m= Ea) | ie rd Spa) =10, 
i=l 


4 
- Var(d,) = 0,0016, o, = 0,04. 
i=l 


Parta) = Vu Su td |. | 


4 
Conform regulei celor şase o (relația (4.2.11)), avem 
P(|d —m|< 30) = 2%(3) =0,997 o P(m-30 <d <m+30) = 0,997, 

de unde rezultă că P(9,88 < d < 10,12) = 0,997. Din această ultimă relaţie 


deducem că d ia valori în afara intervalului (9,88; 10,12) cu o probabilitate mai 
mică de 0,003. Deci este aproape sigur că maşina s-a defectat. 


4.3. Legea log-normală 


Definiţia 4.3.1. Variabila aleatoare X urmează legea log-normală (logaritmică 
normală) (X are repartiție log-normală ) cu parametrii mşi o (me R,o >0) 
dacă densitatea sa de probabilitate (repartiție) este funcția 


1 _Anx-m) 
————e 2% , x>0, 
fQ6m.0)=1oxA2n (4.3.1) 
0, x <0. 


Funcția  f din (4.3.1) este o densitate de probabilitate, deoarece 


FQ0)20, VxeRşi Î. f(ax)dx = 1. Într-adevăr pentru ultima relație avem 
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_(nx-m) i l 


[poa = li se 20 d = lea 


Funcţia de repartiție a variabilei log-normale X cu parametrii m şi o este 
F(x) =0 pentru x <0, iar pentru x>0 este 


3 LE mm i 
F(x) = Ddi=—p—| e 25 d = |" e2du 
GA aha Bal 
= | mo.) 
oi 


unde /(x;0,1) este funcția de repartiție normală standard. Deducem din ultima 
Te d 3 i : je să In X —m ă 
relație că pentru valorile pozitive ale lui X, variabila Y = — urmează legea 
o 


normală standard. 


Teorema 4.3.2. Dacă variabila aleatoare X are repartiție log-normală cu 
parametrii m şi O, atunci momentele inițiale de ordinul k sunt 


m(X)=e 2 „keN:. (4.3.2) 


Demonstraţie 
Conform formulei pentru momentele iniţiale de ordinul 4, avem 


2 
_(nx=m) In x=y 


m,(X) = xi fad = pe EEE Lee A + 
= 0 oxA2z 


(m) _399—2my+m?—20yk 
tel eh 202 PPR | dă 202 P; 
= e'-e y = e py 
ON21 > OV2r > 
1 _y—2yon+o? Emo) mo?) +m? 
= "e 20% dy 
ON21 > 
l E _Lwv-(m+o?)' 0% -2mo?k l oîk2+2mko? ȘI _Lw=(m+o?h)P 
20? A 20? 20? 
=——] e dy = e ] e dy. 
OXN21 ** ON27 zici 


Notăm (y —m-o02k)/(0N2) = u şi obţinem 


1 0?k2+2mk i s m CE 
e 2? ] e"'oN2ndu=e 2? .qed. 
00 


ON21 - 
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m, (Ă) = 


Din relaţia (4.3.2) deducem că media şi dispersia variabilei X cu repartiție 
log-normală cu parametrii m şi o sunt 


2 


E(X)=m(X) = A Var(X) = m (39 —[m OO = e20 (e” —1). (4.3.3) 


4.4. Legea gamma 


Definiţia 4.4.1. Variabila aleatoare X urmează legea gamma (X are repartiție 
gamma ) cu parametrul p(p>0) dacă densitatea sa de probabilitate 
(repartiție) este funcţia 


xPle”* 
E, 0, 
00 =+ T(p) (4.4.1) 
0, x <0, 


unde T(p)= | xPe* dx, p>0 este integrala lui Euler de al doilea tip sau 
P)=], p 


funcția gamma a lui Euler. 


Funcţia f din (4.4.1) este o densitate de probabilitate, deoarece 
f(x)>0, VxeR şi 


00 ] .00 
food = ——| xPle*dx=l. 
(i. T(p) [) 


În propoziția următoare vom prezenta câteva proprietăţi ale funcţiei T (pentru 
demonstrațiile lor vezi [21]). 


Propoziția 4.4.2. Integrala (funcția) lui Euler r(p)= x le“ dx, peR 


verifică următoarele proprietăți: 
a) T(p) este convergentă pentru p>0 şi divergentă pentru p <0,; 
b) I(p+l=pl(p), vYp>0; 
c) T(n)=(n-D)!, VneN'; 


d) T(/2)=Vz. 


Teorema 4.4.3. Dacă variabila aleatoare X are repartiție gamma cu parametrul 
p, atunci momentele inițiale de ordinul k sunt 
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m (0) = p(p+D---(p+k-D, ke”. (4.4.2) 


Demonstraţie 
Momentul inițial de ordinul k este 


My (4) = |, (0) dx = ririe ta T(k+p) 


I:(p)>0 I'(p) 
_(k+p-D(k+p-l)__(k+rp-D:(p+Dolip) 
I'(p) I'(p) 

= (k+p-Dk+p-2)--:(p+Dp. 


Am folosit mai sus proprietatea b) din Propoziția 4.4.2. ded, 


Din relația (4.4.2) deducem că media şi dispersia variabilei X cu repartiție 
gamma cu parametrul p sunt 


EX) = mQ0)= p, VarQ0)= m (30) Im QOI = p. (4.4.3) 


Definiţia 4.4.4. Variabila aleatoare X urmează legea gamma generalizată (X 
are repartiție gamma generalizată ) cu parametrii p>0 şi A >O0dacă 
densitatea sa de probabilitate (repartiție) este funcţia 


—1 _—Ax 
Axe 


F0)=3 Tip) 


„  X>0, 
(4.4.4) 


Într-un mod asemănător cu demonstraţia Teoremei 4.4.3 se arată următoarea 
teoremă. 


Teorema 4.4.5. Dacă variabila aleatoare X are repartiție gamma generalizată 
cu parametrii p >0 şi 4 >0, atunci momentele inițiale de ordinul k sunt 


m,(0) = PD APD, keN”, (4.4.5) 
deci media şi dispersia sa sunt 
E(X)= m(ă)= î Var(X) = m 00 Im = zi (4.4.6) 
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Propoziția 4.4.6. Dacă variabila aleatoare X are repartiție gamma generalizată 
cu parametrii p > 0 şi A > 0, atunci funcţia sa caracteristică este 


p(7) = n), teR. (4.4.7) 


Demonstraţie 
Pentru determinarea funcţiei caracteristice a variabilei X vom folosi formula care 
dă momentul de ordinul k al variabilei X în funcție de derivatele funcției 


caracteristice c în punctul 0, şi anume m, =0%(0):i*, (m,=1), precum şi 
dezvoltarea în serie de puteri a funcției p care are forma următoare 


Folosind formula (4.4.5) pentru momentele inițiale ale variabilei X, obținem 
pentru funcția caracteristică formula 


pp= 0 e =) „P(p+D---(prk-D 


k=0 k=0 k! A. 
Se oaie) ei i ă i =A 
= a) (pe) I7£) e |_i Sea 
20 k! ĂÂ ĂÂ 


g.e.d. 


Din relația (4.4.7) pentru A =, deducem că funcția caracteristică a unei 
variabile X cu repartiție gamma cu parametrul p este 


p(£) =(l-i7)?, rea. (4.4.8) 
Propoziția 4.4.7. Dacă variabilele aleatoare independente X şi Y au repartiții 
gamma cu parametrii p şi respectiv g, atunci variabila X+Y are repartiție 
gamma cu parametrul p+q. 
Demonstraţie 


Să notăm cu / şi g densitățile de probabilitate pentru variabilele X şi Y. 
Deci 


109 


_Î arie, x >0, 
FO = a) =1T(p) 
0, x<0. 


Densitatea de probabilitate P a variabilei X+Y este h(x) = [. f(x=— ye()dy. 


Dacă x <0 atunci 


Ha) = | Fo Deo || fa Dea =0, 


(în prima integrală e(y)=0, iar în a doua integrală /(x-y)=0). 
Dacă x >0, atunci f(x-—y)zOpentru x—-y>0y<x, iar e(y)zOpentru 
y >0. Deci f(x-—y)e(y)z 0 dacă y e[0,x] şi atunci 


Ha) = | fo Deo bv= ps iu, pie ied 


fi pir g. 
rog As 0 


Pentru calculul ultimei integrale de mai sus facem schimbarea de variabilă y=rx, 
deci  dy=xdf, pentru y-—0 rezultă 7—0iar pentru y-—xrezultă 
t— 1. Obţinem astfel 


expr | 


11 — x) dr 
org 0% 


h(x) = ic a sI | (3 — DP (p9) x dt = 


= expr B(q,p) — "206 i 
T(p)'(g) T(p+q) 


Rezultă că variabila X+Y are repartiție gamma cu parametrul p+g. 

Concluzia acestei propoziții o putem obține mai direct folosind funcțiile 
caracteristice. Fie q, şi p, funcţiile caracteristice ale variabilelor X şi Y, şi 
anume 


p(0) = (1-0)? p,(9=(-i0%, re. 


Atunci funcția caracteristică a variabilei aleatoare X+Y este 


p(0)= p(Dp(0= (li, tea. 
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Deducem din relaţia obținută că 4+Y are repartiție gamma cu parametrul p+g. 
g.e.d. 


Propoziția 4.4.8. Dacă variabila aleatoare X urmează legea normală cu 


(X — m)” are o repartiție 


8 , PE at l 
parametrii m şi O, atunci variabila aleatoare Y = pi 
o 


gamma cu parametrul 1/2. 


Demonstraţie 
Să notăm cu G(x) funcţia de repartiție a variabilei Y. Deoarece Y >0, 


atunci pentru x < 0 rezultă că F(x)= PY <x)=0. Pentru x > 0avem 


covor evo 0 e a) rss 


[ex 


= moi să sm of a] o| Eee, 
O 


[ex 


= 20(2x) = = | sate di. 
T 


Atunci pentru x > 0 densitatea de probabilitate g a variabilei aleatoare Y este 


—1/2 _— 
x “e”, 


—x 


sl itiue aibice vea all 
g(x)= G'(%) pag i 


iar pentru x <0, 2(x)=0. 


Deoarece va =T(1/2) (conform Propoziţiei 4.4.2, d)), deducem forma 
funcției g, şi anume 


[ pt 0) 
ax) =1TU/2) 
0, x <0, 
adică variabila Y are repartiție gamma cu parametrul 1/2. q.e.d. 


Aplicația 4.4.9. Să se calculeze momentele centrate u.(X) şi u,(X pentru o 
variabilă aleatoare X cu repartiție gamma cu parametrul p. 


Rezolvare 
Momentul centrat de ordinul al treilea este 
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4300 = [= pf de= [e Pod a-3p[ e rodaer3p” aro a 
- Pfa = m —3pm +3p'm ps = p(p+D(p+2)-3p'(p+D 
+3p'-p' =2p, 

iar momentul centrat de ordinul al patrulea este 

n00= [= prod = | fodâ- ap] rasp | poa 


-4p'|. xfoax+ p'| 700) dig 627540 hagi 
= p(p+Di(p+2)(p+3)-4p'(p+Di(p+2)+6p'(p+1)-4p'+p'=3p"+6p. 


4.5. Legea beta 


Definiţia 4.5.1. Variabila aleatoare X urmează legea beta (X are repartiție beta) 
cu parametrii p şi q(p,q >0) dacă densitatea sa de probabilitate (repartiție) 
este funcția 


l pp Na 
Co i roze a aut But va (4.5. 
0, x £ (0,1), 


unde B(p,q)= [ee (1—x)"7 dx, p,q > 0 este integrala lui Euler de primul tip 


sau funcţia beta a lui Euler. 


Funcţia f din relația (4.5.1) este o densitate de probabilitate, deoarece 
f(x)>0, VxeR şi 


| 
B(p,q) 


| foa= |x= Taz, 


În propoziția următoare vom prezenta câteva proprietăți ale funcției B (pentru 
demonstrațiile lor vezi [21]). 


Propoziția 4.5.2. Integrala lui Euler B(psa)= |” (|-x) dx, p,qgeR 


verifică următoarele proprietăţi 
a) B(p,q) este convergentă pentru p>0 şi q>0, şi în rest este divergentă; 
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b) B(p.q)=B(q,p), Vp.q>0; 


c) BP = B(p-1,9), Vp>l, q>0; 


| 
q-l 


—] 
d B(p,q)=—Î—B(p,9-D, Vp>0, q>l 
p+ad=l 


(p-Da-lD 
(p+q-bp+a-2) 


e) B(p,q)= B(p-lq-D, vp>Llqg>l 


(n=D! 


„VneN',p>0; 
Pipe prn=l) 


8) B(p,n)=B(n,p)= 


9) B(m,n)= (= Dig Vm,neN'; 
(m+n 1)! 


h) B(p+lq)+8B(p,q+1)= B8(p,9), vp.9>0; 


i) qB(p+1.q)= pB(p.q+1), vp,q>0; 
PI 
Î) B(p.9) =], apr d vp.q>0; 


k) pp = PD, vpa>0 


T 


D) DOI) CPU 0) E en 


„ Vpe(0,l). 


Teorema 4.5.3. Dacă variabila aleatoare X are repartiție beta cu parametrii p şi 
q(p, q >0), atunci momentele inițiale de ordinul k sunt 


m,(X) = Bip elep =) „keN'. (4.5.2) 
(p+ra)p+raq+D---(pra+k-l 


Demonstraţie 
Momentul inițial de ordinul k este 
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mp0) = | fo a= |x= 97 dez BUS) 


B(p.9) B(p,q) 
k+p-l  B(k+p-lq)_ _ W+p-D-:(p+Dp B(p.4) 
p+q+k-l  B(p,4) (p+q+k-D---(p+a) B(p,q) 


5 p(p+D--(p+k-l) 
(p+a9)(p+q+D---(prg+k-D 


conform Propoziţiei 4.5.2, c). q.e.d. 


Din relația (4.5.2) deducem că media şi dispersia variabilei X cu repartiție 
beta cu parametrii p şi q sunt 


EQ) = m00)=—P—, Var) m) Im 09P = Si 
p+q (p+9) (pra+bD 
(4.5.3) 


4.6. Legea 7” (Helmert-Pearson) 
Definiţia 4.6.1. Variabila aleatoare X urmează legea x” (Helmert-Pearson) (X 


are repartiție x”) cu parametrul n (n e N ') dacă densitatea sa de probabilitate 
(repartiție) este funcţia 


fi) = zir( 2] (4.6.1) 
0, x<0. 


Parametrii n din Definiţia 4.6.1 se mai numesc grade de libertate, astfel că o 
să mai spunem că X are repartiție cu n grade de libertate. 


Funcţia f din relația (4.6.1) este o densitate de probabilitate deoarece 
f(x)>0, VxeR şi 


| /o0a= : | 


2ir(2) 
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Pentru verificarea relației de mai sus , facem în integrala dată schimbarea de 
variabilă x/2=y, de unde rezultă dx=2dy;, dacă x-— atunci y—0,iar dacă 
x— o atunci y — o. Obţinem astfel 


n 


D2 


ir) 
2 


[. (a = SR (2yple” -2 dy = [yo dy 
—00 dă n 1) 0 


În Figura 4.6.1 sunt reprezentate grafic funcţiile f pentru diverse valori ale 
parametrului n. 


Ay 


—n=1 


0,5 


Y 

3 

Fă 
- 


— n=20 


O 
N 
[--) 
ă 
(==) 


Figura 4.6.1 


Teorema 4.6.2. Dacă variabila aleatoare X are repartiție "cu n grade de 
libertate, atunci momentele inițiale de ordinul k sunt 


m(X)=n(n+2)---(n+2k-2), keN. (4.6.2) 


Demonstraţie 
Momentul inițial de ordinul k este 


m00= [pda i x 


Cu aceeaşi schimbare de variabilă de mai sus folosită pentru calculul integralei 


[. f(x) dx, obținem 


g.e.d. 


Din relația (4.6.2) deducem că media şi dispersia variabilei X cu repartiție 
"cu n grade de libertate sunt 


EOD=m(X)=n, Var( 9) = m() Im (AOŢ = 2n. (4.6.3) 
Definiţia 4.6.3. Variabila aleatoare X urmează legea x" generalizată (X are 


repartiție x? generalizată ) cu parametrii n şi o (ne N', o >0) 
dacă densitatea sa de probabilitate (repartiție) este funcția 


a E A tri 
f(x = tovrr(!] (4.6.4) 
0, x <0. 


Într-un mod asemănător cu demonstraţia Teoremei 4.6.2 se arată următoarea 
teoremă. 


Teorema 4.6.4. Dacă variabila aleatoare X are repartiție x” generalizată cu 


parametrii n şi o (ne N', o >0), atunci momentele inițiale de ordinul k sunt 
m,(X)=n(n+2)-::(n+2k-2)0%*, keN', (4.6.5) 
deci media şi dispersia sa sunt 
E(X)=m(X)=no?, Var(X)= m(X) Îmi (XD) =2no*. (4.6.6) 
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Propoziția 4.6.5. Dacă variabila aleatoare X are repartiție x” generalizată cu 


parametrii n şi o (ne N', o >0), atunci funcţia sa caracteristică este 
p(0)=(-2it0?) 2, re. (4.6.7) 


Demonstraţie 
Folosind formula din demonstaţia Propoziţiei 4.4.6, obţinem 


pp= > m, = SD oa? 1)-(3 -k J 


q.e.d. 


(a-i | 
= (1-2ito?) 2, vrea. 


k=0 k! 


Din relaţia (4.6.7) pentru o = 1, deducem că funcţia caracteristică a unei 


variabile X cu rpartiţie 7” cu n grade de libertate este 


p(0) =(1-2i05, reR. (4.6.8) 


Legăturile dintre repartiția /”şi repartiția normală sunt prezentate în 
următoarele două teoreme. 


Teorema 4.6.6. Dacă variabila X, are repartiție x” cu n grade de libertate 


X 
(n>1) atunci densitatea de probabilitate a variabilei —2— tinde pentru 


V2n 


n — cocătre densitatea de repartiție normală standard. 
Teorema 4.6.7. Dacă fiecare dintre variabilele aleatoare independente 
XX... Ă, are repartiție normală Standard, atunci variabila aleatoare 


X = XP + X3 ++ X2 are repartiție x” cu n grade de libertate. 


n 


Propoziția 4.6.8. Dacă variabilele aleatoare independente X şi Y au repartiții 
"cu m, respectiv n grade de libertate, atunci X+Y are repartiție x" cu m+n 
grade de libertate. 


Demonstraţie 
Să notăm cu / şi g densitățile de probabilitate ale variabilelor X şi Y, adică avem 
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de ciuci ji Ea 
Pa e ir SU E x? e2, x>0, 

f)= z7() z()= Zr) 
0, x <0, 0, x<0 


Atunci densitatea de probabilitate a variabilei X+Y este 


ho) = feo. 


Folosind un raționament asemănător celui întâlnit în demonstraţia Propoziției 
4.4.7, deducem că h(x) =0, Vx <0, iar pentru x > 0obţinem 


l 4400 ÎN ud, 1 008 TR ă 
h() = | e 2 e? 
pc up 227| 
2 2 
-»2 ya 


Notăm y=1x, de unde rezultă dy=xdţ, dacăy—0 atunci 10, iar dacă 


y— xatunci £— 1. Obţinem 


e 2 1 m_ 2 
ha) = — KE; Dr)? (2 xde 
res) 
zI0 m N 
E min mun al 
d țarat E AEa 
o E n a II n (ia Ri 
2; 2 2) 2 
l m+n _ă 
= x 2 e2, x>0 
F= 10223 
2 


Deducem că X+Y are repartiție 7” cu m+n grade de libertate. 
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Concluzia acestei propoziţii o putem obţine mai direct folosind funcțiile 
caracteristice. Fie q, şi p, funcţiile caracteristice ale variabilelor X şi Y, şi 
anume 

p(0)=(1-2i)2, p,(9=(1-2i0 2, teR. 
Atunci funcția caracteristică a variabilei aleatoare X+Y este 


m+n 


p(0) = p(9p.(0)=(1-2i0) 2, rea. 
Deducem din relaţia obţinută că X+Y are repartiție x” cu m+n grade de libertate. 
g.e.d. 
4.7. Legea Student (t). Legea Cauchy 


Definiţia 4.7.1. Variabila aleatoare X urmează legea Student (î) (X are 
repartiție Student) cu parametrul n (n e N ) dacă densitatea sa de probabilitate 
(repartiție) este funcţia 
r| 2 +1 
2 
ful 


pă pa xeR. (4.7.0 
Cu 


fo) = 


Parametrii n din Definiţia 4.7.1 se mai numesc grade de libertate, astfel că o 
să mai spunem că X are repartiție Student cu n grade de libertate. 
Funcţia / din relația (4.7.1) este o densitate de probabilitate deoarece 


F(3)20, VxeR şi | fa=l. 


Pentru a verifica ultima relaţie, avem 


(=) _n+i ar( 221 _n+i 
| /oo&= z AU i dx = 2 [|n “de 


sa 
ar) 
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În ultima integrala de mai sus facem schimbarea de variabilă x? /n = y, x >0, de 
unde rezultă 


An 


dx = dy. 
PE 


Intervalul [0,co) se transformă în intervalul [0,20) şi astfel obţinem 


n+l ÎN n+l 
| roa= i : , A cz: câ 5 2 ) 
(2) 6), 

rs) rez) 


În relaţiile de mai sus am folosit proprietăţile j) şi k) ale funcţiei B din Propoziția 
4.5.2 şi proprietatea d) a funcției I din Propoziția 4.4.2. 


Teorema 4.7.2. Dacă variabila aleatoare X are repartiție Student cu n grade de 
libertate, atunci momentele inițiale de ordinul k sunt 


Misu ( 4) =. 2k +a, 
ni Qk —Du 
(n —2)(n —4)---(n—2k) 


(4.72) 


m.(X)= 2k<n,keN.. 


Demonstraţie 
Pentru 24 + 1 < n, momentele de ordin impar sunt nule. Într-adevăr 


n+l fi 
(7) g ai 
ea d ] 21| 142| dx=0, (4.7.3) 


deoarece funcția / este impară (integrala de mai sus este convergentă). Dacă 
2k +1 > n integrala din (4.7.3) este divergentă, deci X nu are momente inițiale de 
ordinul 24 +]. 


Pentru momentul de ordin par m,, (X), cu 2k <n avem 
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IC af 
m), [să] d. (4.7.4) 


Pentru calculul ultimei integrale folosim aceeaşi schimbare de variabilă ca cea 


folosită mai sus pentru verificarea relației Î. fQOodx =1.  Notăm 
x" In =y, x>0, de unde rezultă dx = e Intervalul [0,0) se transformă în 


2 


intervalul [0,co) şi astfel obţinem 


ar( 222 (e), 
mA) [m ar) 2 ay= e aaa) 
fe 2y far) IE 


2 b y Y. 
Ar (2) 
2 
Folosind proprietățile funcției B din Propoziția 4.5.2 deducem din relația de 
mai sus 
ea (5 Alea Ac a) 
l 
m(X)= z (ay: e] au, : 
fer?) fer[e) r(= 


te tb 
ICC cae 
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i-a) azi) 
2 DD DIA a nt Ok = 


Lafe Ț. 2. DC ) (n = 2972 4)---(n1 228) 


2 


Dacă 2k > n integrala din relația (4.7.4) este divergentă, deci variabila X nu are 
momente inițiale de ordinul 24. q.e.d. 


Din relațiile (4.7.2) deducem că dacă n>l atunci media variabilei X este 


E(X)=0, iar dacă n>2 atunci dispersia variabilei X este Var(X) = E 
PE 
Legăturile dintre repartiția Student şi repartiția normală sunt prezentate în 
următoarele două teoreme. 


Teorema 4.7.3. Dacă /, este densitatea de probabilitate a unei repartiții 
Student cu n grade de libertate atunci 


lim £,(3)= F(530,D, VxeR, 
unde f(x;0,1) este densitatea de repartiție normală standard. 
Teorema 4.7.4. Dacă fiecare dintre variabilele aleatoare independente 


XXX are repartiție normală cu parametrii m=0 şi o, atunci 
variabila aleatoare 


X =Nn Ă 


APĂ pp e 


are repartiție Student cu n grade de libertate. 


Pentru n=llegea (repartiţia) Student se mai numeşte legea (repartiţia) 
Cauchy. O variabilă aleatoare X cu repartiție Cauchy are densitatea de 
probabilitate funcția 


l 


apt eu 
r(l+x") 


fo) = 


122 


Din observaţiile făcute după demonstaţia Teoremei 4.7.2 , deducem că variabila 
aleatoare X cu repartiția Cauchy nu are nici valoare medie şi nici dispersie. 


4.8. Legea Snedecor. Legea Fisher 


Definiţia 4.8.1. Variabila aleatoare X urmează legea Snedecor (X are repartiție 
Snedecor) cu parametriin, şi n, (n,n,eN') dacă densitatea sa de 
probabilitate (repartiție) este funcția 


mp n +n a 
3 2 a i x > 
f(o=in, (2 )r(22) n, i i (4.8.1) 
2 2 
0, x <0 


Parametrii n, şi n, din Definiţia 4.8.1 se mai numesc grade de libertate, 
astfel că o să mai spunem că X are repartiție Snedecor cu n, şi n, grade de 
libertate. 

Funcţia / din relaţia (4.8.1) este o densitate de probabilitate, deoarece 


F(a)20, VxeR şi [. f(x)dx = 1. Pentru a verifica ultima relaţie, avem 


n, | LU Ei HN m+n 
3 3: e Pisi Sa 
] pooa=[2 . z Î go 0 dx. 
e) 2 
În ultima integrală de mai sus facem schimbarea de variabilă n,x/n, = y. Astfel 
obținem 
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ISN: 
La 
LON 

E 
_|+ 
3 
WI 
NR 


00 LL) 
[poa = : 


2 


r( si x Ma m | m+na r( i - ic 
==] y2 (+9) 2 dy= pa] 
(0) (3) * 


2 2 2 


Teorema 4.8.2. Dacă variabila aleatoare X are repartiție Snedecor cu 
parametrii n, şi n,, (nn, € N"), atunci momentele inițiale de ordinul k sunt 


LA n (n, +2)---(n, +2k —2) 
ni (712 — 22 —4)--:(m —2k) 


m,(X)= Dn, kEN. (482) 


Demonstaţie 
Variabila X are momente inițiale de ordinul k pentru 24 < n,. Avem 


n, 1 tr) m+n 
i zi 2 UE Sa 
mp0) = x foda= |, =) 5 2 E 2 (033 d. 
Mae nf: 2 
2) 


Pentru calculul ultimei integrale folosim aceeaşi schimbare de variabilă ca cea 
folosită mai sus pentru verificarea relației [. f(x)dx = 1. Notăm nx/n, =y 


şi obținem 


= (ate) 
_[ m]? 2 
2 2 
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m+n 


are EA 0 2 d 
(2) 


bt) tes) 
E) e 


i(az 1| + d CIC e] 

În, 2 2 > 22 

E (za z-2)- (zar) 
2 | 2 2 2 2 

În nn +2): +2k-2) 

Ş (n = 2(n2 —4)---(n —2k) 


q.e.d. 


Din relația (4.8.3) deducem că pentru n, >2 media variabilei X este 


BU)=- zi 


> iar pentru n, > 4 dispersia variabilei X este 
EI 
2n5(n, + n, —2) 


OC mr ana 


Legătura dintre repartiția normală şi repartiția Snedecor este dată în 
următoarea teoremă. 


Teorema 4.8.3. Dacă variabilele aleatoare independente XX... seed 


mos 


X „+, urmează legea normală cu parametrii 0 şi o atunci variabila aleatoare 
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2 2, 
IE Cd aaa di 
n Xe re+ XE 


n+l m+n 


are repartiție Snedecor cu parametrii n, şi n,. 


Definiţia 4.8.4. Variabila aleatoare X urmează legea Fisher (X are repartiție 
Fisher) cu parametrii n, şi n, (nn, e N) dacă densitatea sa de probabilitate 
(repartiție) este funcţia 


2 2. 
f(x) i ] 2 | ui =) „ xeR. (4.8.3) 


Teorema 4.8.5. Dacă variabila aleatoare X are repartiție Snedecor cu 
parametrii n, şi n,, atunci variabila aleatoare Y = ie are o repartiție Fisher 
cu parametrii n, şi n,. 

Demonstraţie 


Dacă notăm funcția de repartiție X cu F, atunci funcția de repartiție G a variabilei 
Y este 


G(x) = PY <x)= z|nx < *] = P(n X <2x) 
= P(X <e")=F(e”), VxeR. 
Deci densitatea de probabilitate a variabilei Y este 
2()= Ga) =2e%F'(e%)=2e* fe”) 


A (te) 
2 2 
zen 2] = ( =)  SfaeR; 
T| 2 | 2 Pe 
2 ) 


_ Mn 


q.e.d. 
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4.9. Legea Weibull. Legea exponențială 


Definiţia 4.9.1. Variabila aleatoare X urmează legea Weibull (X are 

repartiție Weibull) cu parametrii A, şi a (4 >0,a > 0)dacă densitatea sa de 

probabilitate (repartiție) este funcția 

axe, x>0, 
0, x<0. 


f(x)= | (4.9.1) 


Funcţia f din (4.9.1) este o densitate de probabilitate, deoarece 
fF(x)>0,vxeR şi Î. fa = Aa], se ax =1.  Într-devăr pentru 


verificarea ultimei relaţii facem schimbarea de variabilă Ax“ =y, de unde 
1 
=] 


ii i Atunci 
adi 


rezultă DI 0 ba Şi dx = 


a-l 


00 co a. =) ] d 00 _ 
| Fooa=2a], =) e” E dv= |, e”dy=l. 
[ei 


Teorema 4.9.2. Dacă variabila aleatoare X are repartiție Weibull cu 
parametrii A şi a (4 > 0, a > 0),atunci valoarea medie şi dispersia sa sunt 


[94 


E(X)=A e r(1+1) Var(X)= 4 « r(2 J re! | .)] (4.9.2) 
[94 [94 


Demonstraţie 
Folosind schimbarea de variabilă de mai sus, obținem pentru media variabilei X 


Li 


EO0)= Aa], ze” dida], e”. că y“ dy 
aja 


| po - [1 
=—| y“edy=A (Le) 
Aa , 


Pentru dispersia lui X calculăm mai întâi media lui X?. Avem 


a+l 


1 2 
EX?) = Ha, se dx = daţ[] Pai n l ya pe Si, “r(2+1) 
Ra: [94 
aAe 
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Atunci dispersia lui X este 
2 
sa 2 l 
Var(X)= A r( ) r:[ )) 
a 77 


Pentru a =1legea (repartiția) Weibull se mai numeşte legea exponențială 
(repartiţia exponențială) de parametru A. Deci densitatea de probabilitate a 
unei variabile aleatoare X cu repartiție exponențială cu parametrul A este 


g.e.d. 


A SĂ 
X => 
JO) | 0, x <0. 


Din relația (4.9.2) rezultă că media şi dispersia unei variabile aleatoare X cu 
repartiție exponențială cu parametrul A sunt 
l l l l 
E(X)=—TQ2)=—, Var(X)=IE3)-["2)=, 
(4) Le) (ă)= 510 0)-L (2)l=23 


deoarece I'(2)=1, I[(3)=2. 


Observaţia 4.9.3. Repartiția exponențială cu parametrul A este o repartiție 
gamma generalizată cu parametrii p=| şi A. 


Propoziția 4.9.4. Dacă variabila aleatoare X are repartiție exponențială cu 
parametrul A, atunci funcţia sa caracteristică este 


p(7) = h — 3] „ teR. (4.9.3) 


Demonstraţie 
Din Observaţia 4.9.3 şi relația (4.4.7) din Propoziția 4.4.6, deducem că funcția 
caracteristică a variabilei X este dată de expresia din (4.9.3). 

Funcţia caracteristică se poate calcula şi direct folosind formula din 
definiția sa. Avem 


p(2) = Elei* )= [era E [e NE as Aj, ea 


= 4 | e P[cos(rx) +isin(x)]dx = 4 || e 2 cost) d + i | e? sin(n) dx. 
0 0 (9) 


În h 


Pentru /, obținem 
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I, = | e* cos(1x) dx = | (e* ) cos(x) dx = -e cos(tx)) o 


0 


— at sin(2x) dx = Du ja (e ) sin(7x)dx = - + 23 (e-2 sin(2x)) î. 


2 
-, e" cos(7x) ds) fie Ă e”? cos(7x) dx. 


ț 


: l i 
Rezultă astfel relația 7, Zi AIE Fa de unde obținem că J, = >. Pentru 


20 ut 


ț 


1, din relaţiile de mai sus deducem /, ZA Obţinem astfel pentru (7) 
+ 


&, -—l 
; ț 
expresia p(7) = ( — “) „VreR. g.e.d. 


Aplicația 4.9.5. Fie variabilele independente _X, şi X,cu repartiţii 
exponențiale cu parametrii A, respectiv A. Să se determine densitatea de 
probabilitate a variabilei X, + X,. Să se generalizeze apoi rezultatul obținut la 


cazul a n variabile aleatoare independente cu repartiții exponenţiale cu acelaşi 
parametru A. 


Rezolvare 
Să notăm cu f, şi f, densitățile de probabilitate ale variabilelor X, şi 


X, „adică 


de At xi), 
0, x <0, 


=45 
A at), 


po-| 0, x<0. 


=] 


Dacă A, z A, atunci densitatea de probabilitate f a variabilei X, + X, este 0 
pentru x <0, iar pentru x > 0avem 


f5= [fo rod | ne ae d 
: _ AA (e e) 


az [E (a22)y AA = z 
= A Ae aj et 2 dy = 172 e în gl Ay 


Za Ei A Za 2 A 
| | Ad (e oh ) x > 0, 
Deci funcţia f are forma f(x) =+ A —4» 
0, x<0. 
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Dacă, = 4, =A atunci f(x) =0, vx 0, iar pentru x > 0obţinem 
f(x) SE |, Ag 40) Ae dy 25 Pet IN dy 2 Pe Toacă 
Deci densitatea de probabilitate a variabilei X, + X, este 


Axe *, x>0, 
f(x)= 
0, x <0. 
Pentru trei variabile aleatoare independente X,,X,,Ă, cu repartiţii 
exponențiale cu parametrul 4, densitatea de probabilitate a variabilei 
X+Ă,+Ă, este h(x)=0, Vx<0 şi pentru x > 0avem 


3 


x i: X Ă 
h(x) = |, 17 (x — pe 40% .4e* dy = He [, (x —y)dy = ei 


Deci 


3 
2 _—Ax 
—xe“, x>0, 


h(x)=4 2 

0, 30). 
Prin inducție matematică se arată că pentru variabilele aleatoare 
independente  X,,X,,....Ă, cu repartiții exponențiale cu parametrul 4, 


densitatea de probabilitate a variabilei X = X, + X, +--:+ X, este funcția 


A nl „=Ax 
(x) =1(n-D! 
0, x <0. 


Rezultă că variabila X are o repartiție gamma generalizată cu parametrii n şi A. 
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Capitolul 5 


Convergenţa variabilelor aleatoare 


5.1.Convergenţa aproape sigură şi convergenţa în probabilitate 


Fie (0,K,P) un spaţiu probabilizat şi (X, ) un şir de variabile aleatoare. Fie 
de asemenea X' o altă variabilă aleatoare. Ce înseamnă că X, tinde la X? 


Desigur, variabilele aleatoare sunt funcții A: — N. Pentru funcții se ştie 
deja ce înseamnă că X, converge la X: că X, (0) — X(0) pentru orice o e Q. 


. . > . . * . * uU > 
Mai există şi noţiunea de convergență uniformă: X, > X dacă supuco 


| x, (o)-X(o)l——o. 

În teoria probabilităților aceste două tipuri de convergenţă nu prea sunt de 
folos. Situația tipică întîlnită în practica statistică este următoarea: se face un 
experiment cu rezultatele posibile r1,...,rk . Rezultatul obţinut la al n-ulea 
experiment este X,. 

(De exemplu se aruncă un zar despre care nu ştim dacă este corect sau 
falsificat; în acest caz rezultatele sunt 1,2,3,4,5,6) 

Nu avem cum să prezicem rezultatul X,, dar putem spera să aproximăm 
probabilitățile p; de apariție a rezultatului r;, dacă facem unele ipoteze 
acceptabile. De exemplu, dacă acceptăm că toate variabilele aleatoare X, au 


aceeaşi repartiție, F. Am putea număra procentajele f; de apariţie a rezultatului r; 
şi spera că ele nu diferă mult de “adevăratele” probabilităţi p;. 


De altfel, de aici a şi pornit teoria probabilităților. 


În cazul zarului nostru, am putea să îl aruncăm de 6n de ori — de exemplu — şi 
să vedem dacă frecvențele obținute diferă mult de n. Dacă da, (deocamdată nu 
ştim ce înseamnă “prea mult”, se va vedea la capitolul privind intervalele de 
încredere) am putea spera că dacă o să mărim numărul de aruncări ale zarului ne 
vom apropia din ce în ce mai mult de “adevăratele valori” p, = P(X =r,). 

Să formalizăm puţin contextual. 

Avem un şir de variabile aleatoare (X,), care sunt identic repartizate cu 


Pr , 
auf a: E: 2 ... RI, plai 
repartiția necunoscută  /F -l ! ] „ Vrem să găsim numerele 
Pi Do mer ala 
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1 


(j<n:x, =r,) 


Dis---» PD, Pentru aceasta calculăm valorile Y,, = şi ne gîndim 


că, poate, Y, 


ni 


converge la p, dacă no. 


Aceasta este problema de bază. 
Nu ne putem aştepta ca Y,, să conveargă la p, în sensul obişnuit al 


cuvîntului, adică să aibă loc convergența pentru orice scenariu veQ: de 
exemplu, s-ar putea ca rezultatul r,să apară mereu sau nici măcar să nu apară, 
deşi p; >0. 

Dar poate că Y,, converge la p, în majoritatea covirşitoare a cazurilor? 


Într-adevăr, aşa se întîmplă dacă se mai adaugă nişte ipoteze. Aceasta este 
legea numerelor mari. 

Mai întîi să lămurim ce înseamnă “în majoritatea coviîrşitoare a cazurilor”: 
înseamnă aproape sigur. 


Definiţia 5.1.1. Spunem că (X,), converge la X P-aproape sigur şi scriem 


P 9 d (sau XX (mod P)) dacă 
P(im sup Ă, = liminf ăX,=X)=1. Dacă  PUimsupă, =liminf ă,)>l, 


spunem că (X,), este un şir P- convergent aproape sigur. 


Observaţia 5.1.2. Dacă probabilitatea P se subiînţelege, putem renunţa la litera 
“P” şi scriem doar X, ——X 


Observaţia 5.1.3. Evident că dacă X, converge la X punctual - în sensul 


obişnuit al cuvintului - atunci X, —— X. La fel de evident este că diferența 
între convergența punctuală şi cea aproape sigură poate fi foarte mare. 


Observaţia 5.1.4. 7ot evident este că limita aproape sigură a unui şir de 
variabile aleatoare nu este unică, ci numai unică aproape sigur. Într-adevăr, 


dacă 4, ———X şi X =Y (a.s), atunci putem la fel de bine să spunem că 
X, a.s. Y. 


Observaţia 5.1.5. La fel de evident este că X, ——Ă SĂ, —X——0, 
deoarece 


P(lkm sup X, = liminf X, = X)= P(imsup(X, — 4) = lim inf X, — 4) =0). 


Exemplu 5.1.6. Fie O = %, K = B(h), X„(0) = sin(no), 


T 
P=(6,+6,)= | . Â) Șirul X „este divergent, singurele puncte o în care el 
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converge sunt cele de forma o = kr. Totuşi, X,—— 0, deoarece 
P(X, =0)=1. Sau, dacă schimbăm puţin şi luăm X,(0)=sin”(0), acesta 


converge la O cu excepția punctelor de forma 1/2 + kr. Dacă luăm, de data 


1/2 5r/2 


aceasta, P = (6, +53) = | i ) atunci Xa i, 


Exemplul 5.1.7. Fie O = [0,1), K = B([0,1)), P = Uniform(0,1) ( = măsura 
Lebesgue pe 9!) şi (a, „= un şir strict crescător de numere pozitive cu 
proprietatea că lima, = dar lim(apyy —a4)=0 şi, în plus, an —an Sl. De 
exemplu putem lua a, = Inn sau a, = An. 

Fie d() = x-—[x] partea zecimală a lui x, A, = d([a, au) >= (do): x e 
[ama şi X > la. Observăm că P(4,) = ani — an — 0. (De exemplu, dacă 
a, >inn, atunci A, =[0,ln2], 4, =[ln2,0)y[0,In 3-10), 4, =[ln3—1,ln4-1), 
etc. ). A, =[ln4—1Dy[0,ln 5-2). Atunci limsup A = O şi liminf A, = O deci 
lim sup.X, = liimsup, > şiliminf X, =la =0. 


(Într-adevăr, 


limsup4, = Uau > An+k+Hl )) = Ur » Ant ) = (ala, , %0)) = iar 
n k n k n 


lim inf A, = UN d(la »An+rk+l )) = 0) 
n k 
Exemplul 5.1.7 este unul extrem, în care limita superioară şi cea 
inferioară nu coincid nicăieri. 
Exemplul 5.1.8. Fie, pe spațiu probabilizat de la exemplul anterior, 
X,=nl ( N Atunci X, converge evident la 0, deci converge şi a.s. 
0,— 


» 
n 


Cum putem decide dacă X, —> X ? În cazul cel mai simplu, un răspuns este dat 
de 


Propoziția 5.1.9. Fie (0,K,P) un spațiu probabilizat şi (4,), un şir de 


evenimente din K. Presupunem că seria 5. P(4,) este convergentă. Atunci 


Demonstraţie 
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Fie B, = 4, U Au 9... . Cum P(B,) < YP(4,,,) şi seria X P(A,) este 
k>0 


convergentă, P(8,)—>0 . Dar şirul de mulțimi  (8,), este monoton 


descrescător, deci l, >lp cuB= A, şi P(B) = lim P(B,)=0. 


n n=l 


Dar limsup,, = | iasa za AN = ha, = 1, de unde 0 < lim infl, = 


limsup 1, =1,. Cum P(limsup ȘI z liminf I/) < P(B) = 0, urmează că şirul 
(1, )„ converge aproape sigur. Putem lua ca limită a sa, X, orice variabilă 


aleatoare X = 1, unde A este o mulțime neglijabilă. Cel mai simplu e să spunem 


că 1, >0..q.ed 


De aici rezultă un criteriu important cu care putem verifica dacă X, ——X 


Propoziția 5.1.10. Fie (X,), un şir de variabile aleatoare. Presupunem că 


pentru orice £ > 0 seria 5. P(| X,|>2£) este convergentă. Atunci X, —**—0. 


Demonstraţie 
Fie B = (oeQ: X, (0) nu converge la 0!. Atunci B = Us, unde 
N 


B,>toed : | X, (o)l > 1/N de o infinitate de ori). Cum şirul de mulțimi (8,), 
este crescător, P(B) = lim P(B, ) — aplicăm din nou proprietatea de continuitate 


monotonă a probabilității. Dar seria A P| X, PIN ) este convergentă, deci 
P(B,)=0V N de unde P(8)= 0 qed. 


Observaţia 5.1.11. Condiția din propoziția de mai sus nu este decit suficientă, 
nu şi necesară. De exemlu dacă avem un şir descrescător de mulțimi 412422... 


cu P(A.) = l/n, atunci |, este un şir descrescător, deci are o limită de forma 1, 
cu A = NA, . Deci pla, Cum P(4) = 0, putem scrie, conform observaţiei 3, că 
n n 


L a.s. 0. 


n 


Observaţia 5.1.12.  Convergenţele obişnuite sunt date de o distanță. Adică 
putem scrie că X, >X o Ve> Gexistă n.astfel ca n >ne dA) < e. 

Aceste convergențe au următoarea proprietate: dacă din orice subşir al lui 
(X,) se poate extrage un sub-subşir care este convergent şi limita sa este 


aceeaşi, să zicem X, atunci X, — X . Inr-adevăr, dacă limă, ză , atunci 
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există un e > 0 şi un subşir (k,)„astel ca d(X, „X)>e , deci din subşirul 
(X, )n nu putem extrage nici un sub-subşir care să tindă la £. Spunem că aceste 


convergenţe sunt topologice. Convergenţa aproape sigură nu este topologică. 
Într-adevăr, dacă ne uităm la exemplul extrem 1.1.7, în care şirul nu are absolut 
nici o limită aproape sigură, vedem că el are proprietatea ciudată că din orice 
subşir al său se poate extrage un sub-subşir care converge la 0. Motivul este că 
P(4,) > 0. Ahfel zis, şirul 1, converge totuşi la 0, dar în probabilitate. 


Definiţia 5.1.13. Spunem că şirul de variabile aleatoare (X,) converge în 


probabilitate la X (şi scriem X, ae A, dacă lim „_>s P(|X, —X >s)=0ve>0. 


Din definiție rezultă imediat că un şir de forma X, = 1, Converge în 


probabilitate la O dacă şi numai dacă P(4,) — 0. Acesta este cazul exemplului 
1.1.7, care ne arată cum se prea poate ca un şir divergent aproape sigur să 
conveargă, totuşi, în probabilitate. 

Convergenţa în probabilitate este una mult mai uşor de manipulat, deoarece 
ea este topologică: provine de la distanță. 


Propoziția 5.1.14. Fie X,Y două variabile aleatoare. Definim d(X,Y) = EX Y|A 
1). Atunci funcţia d este o semidistanță pe spațiul L(O,K) al tuturor variabilelor 


aleatoare şi, în plus, avem echivalenţa X, ——X > d(XX) > 0 


Demonstraţie 

Cum este evident că a,b >0=aAl + bAl >(atb)A 1, este clar că d 
este o semidistanţă: d(X,P) + d(Y,Z) = EX Y|A D+ (Y-ZIA D]>E(X-ZIA 
I). 


Pe de altă parte, dacă notăm cu Z, variabila aleatoare |X- Y|, observăm că 
dacă e e (0,1), putem scrie E(ZA 1)=E(ZA 1, Z<e)r+E(ZA L;Z> e) <eP(Z <e)+ 
P(Z> e) de unde 


E(ZA l)<e+P(Z>e) (5.1.1) 
Apoi E(ZA 1; Z<e)+E(ZAL;Z>e)>E(ZA 1;Z>)> E(e; Z> e) de unde 
E(ZA 1) >eP(Z> e) (5.1.2) 
Din (5.1.1) şi (5.1.2) deducem cleştele 
eP(Z > e) <E(ZAl) < e+P(Z>e) (5.1.3) 
Să presupunem acum că 4(X,X,) — 0. Din prima inegalitate de la (5.1.3) 
deducem inegalitatea P(X- x, | > 2) < El xn) „adică P|X-xX,| >) < 


XX 4 
d(ă,X,) > lim, PX X, | > 8) =0; aşadar dXX) > 0 >X, —oX 

€ 

Reciproc, dacă pentru orice e > 0 avem că lim„P(X-X, | > 2) =0, din a doua 
inegalitate de la (5.1.3) rezultă că lim sup, d(X,X,) < e pentru orice s>0. Dar e 


este arbitrar, deci lim d(X,X,) = 0. q.e.d. 
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Un caz care implică imediat convergența în probabilitate este 
convergența în L/.. 


Definiţia 5.1.15. Spunem că şirul de variabile aleatoare (X,), converge în L” la 


X (şi notăm acest lucru cu X, —L—X) dacă lim, X, - X= 0: 


Propoziția 5.1.16. Dacă X, RE 40, pentru un anumit p > |, atunci X, ME 4 


Demonstraţie 
ti SI ZI, Ă 
Pentru p e [1,%) folosim inegalitatea evidentă P(Z |> z) ui : într-adevăr, 
e 


al, 


dacă X, —>X, atunci lim, P(x- x, |> 9 < lim, = 0 . lar dacăp =, 


atunci este şi mai evident: X, ei e e E 970 5 A ip q.ed. 


Observaţia 5.1.17. Totuşi, dacă X, —2>X, din orice subşir al său se poate 
extrage un sub-subşir care converge la X aproape sigur. Într-adevăr, aplicăm 
Propoziția 5.1.10 Prin procedeul diagonal, putem alege un subşir (k,), în aşa fel 
încit seria 5 P| XP e) să fie convergentă pentru orice e>0. 


Concluzie. Între cele trei tipuri de convergenţă există următoarele implicatii: 
XX Lo (p< 0) 3 Xa —Poă şi XX 3 XP 3 
Xe as. 94 
Aşadar, convergenţa în probabilitate este cea mai slabă. Este de remarcat că 
nu există alte implicații. Astfel: 
-Şirul de la exemplul 5.1.3 converge peste tot, dar nu în L!, deci nici în LI” cup 
>1 
-Şirul de la exemplul 5.1.2 converge în probabilitate şi în L” pentru orice 
1<p<oo, dar nu a.s. 
-Dacă luăm X, = sad ) pe O = (0,1), P = Uniform(0,1), care converge 
n 


punctual la 0, atunci pentru orice p>l putem găsi un şir (a), astfel ca X, 


' Amintim că dacă X este o variabilă aleatoare, şi p e[1,] atunci 
1 


x], = (£ LX Php dacă p < oo iar |X|].. = im, > ||], = ess sup x. Inegalitatea 
normelor ne spune că funcţia pr ||X]], este crescătoare. 
* JI], =E1z > zl ZI;IZp > <PP(|Z|>e) 
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p ie ad ate Sp 2 
E 2) pentru p' <p dar X, nu converge nicăieri dacă p'> p. De exemplu o, = 
1 


nb. 


5.2. Legi ale numerelor mari şi aplicaţii 


5.2.1 Legea slabă 


Revenim la problema de bază enunțată în paragraful precedent: putem spera 
să găsim repartiția unei variabile aleatoare „empiric”, adică făcînd observaţii 
asupra ei? 

Aşa pusă fiind, problema nu are sens. 

Pentru noi niciodată nu putem face mai multe observaţii asupra unei variabile 
aleatoare, ci numai una. Dacă aruncăm un zar de n ori, noi nu observăm o 
variabilă aleatoare, ci un şir de variabile aleatoare X,,....X,. Putem accepta că 
aceste variabile aleatoare au aceeaşi repartiție. 

Atunci problema capătă sens: avem un şir de variabile aleatoare (X,), care 
sunt identic repartizate şi am dori să îi aproximăm repartiția, pe baza 
observaţiilor făcute asupra lui. 

Nu cumva am putea să îi calculăm, aproximativ, media? În definitiv pu = EX, 
nu se numeşte degeaba „medie”! 

Răspunsul este: uneori, da. 


Propoziția 5.2.1. Legea slabă a numerelor mari.(WLLN) 

Fie (X,), un şir de variabile aleatoare identic repartizate şi necorelate din L? 
(adică avînd şi moment de ordin 2). Fie pu = EX; , o = Var(X%) şi fie 
Riot 


n 


Xa 


. 0 0 00 Peya P 
1 media empirică”. Atunci Xn —— n. 


9) 


1 aie J 
„ atunci Xa = 
1=p pf 


Ca un caz particular, dacă X, = | 
P A Sa _ ă . 
—— p. Acum mediile X„ se notează cu J, şi se numesc frecvenţe relative. 


Demonstraţie 


SI it a Pai Y + +..+Y, 
Centrăm variabilele: fie Y, = X, - p. Atunci X„- u= tg se Aaa aul 9 
n 


Urmează || X„- ul = E(X- w> = E > EXY,.. Dar EYY, = cov(X,X) = 0 


n” 1<i,j<n 


* abreviere internaţională: Weak Law of Large Numbers 
* Se mai numeşte şi “media de selecţie” 
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n 1 e: „e a 
dacă iz. Deci E(X„- p) = == EY2= "929. Concluzie: X, —y deci, 
HN I<i<n n n 


conform cu Propoziția 1.1.16, X, ——p. qed 


Rezultatul nu mai rămîne adevărat dacă renunțăm la ipoteza necorelării. De 
exemplu, dacă X şi Y sunt două variabile aleatoare cu aceeaşi repartiție şi pe 
baza lor construim şirul X, = X dacă n este par şi X, = Y dacă este impar, atunci 


2 X+Y Aa SIE: i 
X „va converge peste tot la „care nu numai că nu coincide cu media, dar 


mai este şi variabilă aleatoare. 

Se pot da exemple de şiruri de variabile aleatoare identic repartizate pentru 
care media empirică nu converge nicăieri. De exemplu se iau doua variabile 
aleatoare X şi Y si cu ajutorul lor se construieste un sir format doar din X şi Y 
care nu are limită Cesaro. 


Observaţia 5.2.2. Legea slabă se mai numeşte Teorema lui Bernoulli. Ea a dat 
primul răspuns la întrebarea: putem aproxima empiric probabilitățile? Forma 
sa verbală repetată de sute de ani este: Frecvenţele relative converg în 
probabilitate la adevărata probabilitate. 


Acest rezultat nu este satisfăcător. De aceea teorema lui Bernoulli se numeşte 
„Legea slabă”. Faptul că X„ converge în probabilitate la ui nu înseamnă de loc că 
şirul X (0) converge la pu pentru toate scenariile &, nici măcar că aşa ceva se 
întîmplă pentru „marea lor majoritate”. E suficient să privim exemplul 5.1.7. E 
adevărat că el conţine un subşir care converge la pu (observaţia 5.1.17) dar asta ne 
ajută prea puţin. 

Am dori un rezultat „tare” care să ne asigure că X, converge la pu aproape 
sigur. Dacă eliminăm ipoteza ca natura ne joacă o farsă urîtă, atunci putem fi 
siguri că dacă tot repetăm un experiment în anumite condiţii, ne vom apropia 
oricît de media cea “adevărată”. 

Chiar aşa se şi întîmplă. 


5.2.2 Legea tare 


Preţul este să înlocuim ipoteza ca variabilele X, sunt necorelate cu ipoteza 
mult mai tare că ele sunt independente. 


* Aici e de fapt o problemă de filosofie a satisticii: decretăm că evenimentele de probabilitate 0 
nu se întîmplă. E o discuţie fascinantă, dar mai complicată. 
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Fie atunci X:Q — N” vectorul cu componentele X = (41,%3,....). Componentele 
sale X; sunt proiecţiile pr(%). În loc să scriem X, , scriem 


ee (X)+...+ pr,(X)). Avantajul este că acum avem o singură variabilă, 
n 


anume X. Introducem şi funcţia £: RR” — NR” definită prin 

D013) 2 (0233) O PrAt)) = prin) 21 (5.2.1) 
care se numeşte shiftul canonic. Dacă notăm cu fh” — R prima proiecţie (/= 
pru)atunci putem scrie 


ja parea fo? + forihă) (5.2.2) 


unde prin £ înţelegem roro...ot, compunerea de n ori a lui t cu ea însăşi. 

Scrierea are avantajul că ne permite să ne concentrăm asupra unui şir 
Cesaro în care apar doar două variabile: funcția / şi shiftul 7. Cu studiul unor 
asemenea şiruri se ocupă o disciplină matematică numită teorie ergodică. 

Ca să putem aplica rezultatele din teoria ergodică, ar trebui verificat că 
shiftul invariază măsura. 

Este vorba despre repartiţia P, = PoX! a vectorului X. Ea este o 
probabilitate pe spaţiul produs (R*,B*(%)) € În general nu ştim să o calculăm, dar 
dacă facem ipoteza suplimentară că variabilele X, sunt independente şi identic 
repartizate, atunci este uşor de văzut că P, = F” , unde F este repartiția comună a 
variabilelor aleatoare X,. 


Lema 5.2.3. Pe spațiul (N",B"(9%)) avem că 
() Pot d P, 
(ii) Dacă A e B“(R) are proprietatea că t "(4) = A, atunci Pi(4) e 10,1) 


Demonstraţie 

(î) Trebuie arătat că P,(r'(4)) = P(4) V A e B“(R). Din motive elementare? este 
suficient să verificăm acest lucru pentru un bloc de lungime n, A = 
BxBox...XB AXR Rx... 


* G-algebra produs se defineşte ca fiind cea mai mică o-algebră generată de blocuri. Un bloc de 
lungime n este o mulțime de forma BxB2x...xBxRxRx....... unde mulțimile B, sunt boreliene. 
Mulțimea D a blocurilor este în mod evident stabilă la intersecții finite, deci B"(R) coincide cu 
U-sistemul generat de D. 

7 Amintim că dacă TI; sunt o probabilitate pe un spaţiu măsurabil (E,E), atunci P= II 88... 
este probabilitatea pe E” cu proprietatea că P(B,xB»x...xB,xExEx.....) = I(BOIl(82).. Il„(8.). 
Că o asemenea probabilitate (numită probabilitate produs) există, nu este evident: existenţa ei 
este dată de teorema lui Kolmogorov. Dacă II, = Il» = .....= IL, atunci probabilitatea produs se 
notează cu II”. Acesta este cazul nostru. 

5 Motivul elementar este că dacă două probabilități definite pe o aceeași G-algebră coincid pe un 
sistem de generatori închis la intersecţii finite al o-algebrei , atunci ele coincid. În cazul de faţă 
acest sistem de generatori este mulțimea D a blocurilor. 
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Să remarcăm că £ '1(4) = NxA. Într-adevăr, x e £ 1(4) O 1) e A O (23...) e 

BxBox...XB AXR Rx. O XX e By, Mm E Bonn e B, O x e hx 
BxBox.. XBAARXRX.. = Rx. Deci Put 1(4)) = F“( Rx BxBox. xBARXRX..) = 
FR)F(B.)...F(B,) = F(BD)...F(B,) = Pi(4). Adică £ invariază probabilitatea P.. 
(ii) Lucrăm cu indicatori, căci este mai comod. Ipoteza £ '(4) = A devine Lot = 1, 
„Dacă punem f în loc de 14 se pune întrebarea ce putem spune despre o funcție f 
care are proprietatea că /= fer. Aplicăm această funcție vectorului X şi avem că 
fă) = RU) = ALA) = .... sau, scris explicit, că AXA...) = A...) = 
FOT) 2 are 

Aici intervine în forță ipoteza independenţei. 

Deci variabila aleatoare Y = f(X) este independentă de X, (de vreme ce Y = 
RXX3...) 1) şi de X (de vreme ce Y = AXĂ...) 1), şi de X, adică de toate 
variabilele aleatoare X,. Deci f(Ă) este independentă de X, adică şi de f(Ă). 
Înseamnă că Y este independentă de ea însăşi. Dar atunci ea este constantă 
aproape sigur. 

Concluzie: dacă 1„ot = 14, atunci 14 = constant (mod P,). Această constantă, 
fireşte, nu poate fi decît O sau 1: deci P(4) e (0,1). g.ed. 


Definiţia 5.2.4. Fie (0,K,P) un spațiu probabilizat. Şi fie 1: 2 — O măsurabilă. 
Spunem că t este ergodică față de P dacă Pot = P, şi t (4) = A P(A) e 10,1) 


Acum suntem în contextul firesc al teoriei ergodice. Putem aplica: 


Teorema 5.2.5.(Teorema ergodică) Fie (0,K.P) un spațiu probabilizat şi f e 
L(0,K,P). Fie, de asemenea, t:9 — 9 o funcţie ergodică. Atunci 


1 îi 
(7 rfot+ for?+.+ for 1) a pf | JI? 
n 
Demonstrația este departe de a fi evidentă şi nu o vom da aici.” 
Şi avem ceva mult mai tare decît am sperat, anume 


Teorema 5.2.6. Fie (0,K,P) un spaţiu probabilizat, (E,E) un spațiu măsurabil, X 
= (%,), un şir de variabile aleatoare X,: O > E cu proprietatea că shiftul t: E” — 
E” este ergodic față de repartiția sa P, = PoX! . Fie f E” > R o funcţie 
măsurabilă cu proprietatea că fă) e L(Q,K,P). Atunci 


S( e fate fot ud feri)» converge P — aproape sigur la Ef(X). 


? Cititorul interesat poate găsi multe despre această teoremă aici: 
http://en.ikipedia.org/wiki/Ergodic_theory. O demonstrație frumoasă se poate găsi in 
cursul lui I. Cuculescu (1974) sau Tudor. Demonstrația originală a autorului (Birkhoff 
1931) este aici: http://www.ncbi.nlm.nih.gov/pme/articles/PMC1076138/?page=1 
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Demonstraţie 
Nu avem decît să aplicăm teorema ergodică pe spaţiul (£%,£*,PoX)). 
q.e.d. 


Avantajul acestei formulări a legii tari a numerelor mari este că se poate 
generaliza şi la alte tipuri de şiruri de variabile aleatoare — de exemplu la lanţuri 
Markov sau la proces staţionare. 

Ca să o înțelegem mai bine, o să îi scriem cîteva particularizări. 


Corolarul 5.2.7. Fie (X,), un şir de variabile aleatoare îi.i.d. cu valori într-un 
spațiu măsurabil (E,E) şi fie fi E” — R o funcţie măsurabilă cu proprietatea că 
Ra...) e LI. Atunci 
1 AS. 
(PO Xa Poza Xa) PO a EA Sci (3;2.3) 
Şi acest enunţ este foarte general. Ca să îl putem aplica, ar trebui să putem 
calcula membrul drept. Particularizăm la cazuri calculabile. De exemplu dacă 


variabilele aleatoare sunt reale iar f depinde doar de o mulțime finită de 
componente: 


Corolarul 5.2.8. Fie (X,), un şir de variabile aleatoare i.i.d. şi fie FR > R o 
funcție măsurabilă cu proprietatea că fX.Xo....X) e L!. Atunci 


l as, 
TA Xa) Pa ne Xa) Pr Ama at i a) (5.2.4) 


Avantajul este că acum chiar putem calcula membrul drept, folosind formula 
de transport. 


Dacă PoX,! = F, atunci EAX,,...„X) = | fdF* . 
Dacă, de exemplu, F are o densitate p față de măsura Lebesgue, atunci 
EA... Xa) = jf(csoio sata (a (x ).ploz be dea dp B 


O particularizare şi mai mare este cea cu care am început: dacă f=pri. 
Corolarul 5.2.9. Legea tare a numerelor mari (SLLN)' 
Fie (X,), un şir de variabile aleatoare i.i.d. din L!. Fie F repartiția lor şi pu = 


EX, = [xdF(a). Atunci zii i ua caut 
n 


n 


converge a.s. la p.. 


Exemplul 5.2.10. Fie X, variabile aleatoare pozitive i.i.d. şi repartiția E. Atunci 
media geometrică 1|X,X>...X„ converge a.s. la ePAi = elnsi 0). (Într-adevăr, 


'% abreviere internaţională: Strong Law of Large Numbers 
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logaritmînd expresia avem —(InX, +InX, +...+InX,) > EX). Dacă PX 0) > 0, 


] 
N 
atunci limita este 0. 


Exemplul 5.2.11. Media lor armonică converge la 1/£E Să „ Într-adevăr, 


n ] 
| i | Fa | E . 
A A A Ă 


Exemplul 5.2.12. (Procese de reînnoire). Fie (6,), un şir de variabile aleatoare 
i.i.d. strict pozitive a.s. şi To=0 iarn > | T,= 0 + ...t O. Fie N(0) = maxi k: Ta < 
1. M(D este un contorcare numără cite variabile s; au apărut pînă la momentul t. 


„N(L la 5 g : 
Atunci (0) ax. > ai Într-adevăr, MO) = n ST St Ta . Dacă t— o, atunci 
t o, 
Ă L Pi Ada SE IRI a Sa 
n — o şi avem cleştele - < Fr) <*L în care termenii din stinga şi din dreapta 
n A n 


au aceeaşi limită, anume Eo.. 


Posibilitatea statisticii: teorema lui Glivenko 


Revenim la problema iniţială: putem spera să aproximăm, empiric, funcția de 
repartiție a unei variabile aleatoare X? 

Dacă dispunem de un şir de observaţii independente asupra ei, răspunsul este, 
da. 

Cu condiţia să punem problema corect. 

“Observaţii independente asupra lui X” înseamnă de fapt un şir de variabile 
aleatoare (X,), care sunt independente, identic repartizate şi avînd aceeaşi 
repartiție ca X. 


Exemplu 5.2.13. Se dă un zar, posibil falsificat şi dorim să estimăm 
probabilitățile p; = PX =), | <i<6. Xeste rezultatul unei aruncări a zarului. 


Exemplu 5.2.14. Se aruncă la întîmplare două puncte A, B într-un pătrat de 
latură L = |. Segmentul AB are o lungime aleatoare X e [0,vV2]. Am dori să îi 


sa y 


găsim funcția de repartiție în ipoteza că „la întîmplare ” înseamnă că punctele A 
şi B sunt vectori aleatori independenți repartizați uniform în pătrat. 


În ambele cazuri problema este similară, deşi cu grad de dificultate tehnică 
diferit. 

Fie (X,), un şir de variabile îi.i.d. cu funcția de repartiție F. Deci F(x) = PX < 
x). Îi ataşăm funcţia de repartiție empirică şi arătăm că ea converge la F. 


142 


Definiţia 5.2.15. Fie (X,), un şir de variabile aletoare i.i.d. Şirul de variabile 


1 , a iba 
lj<n:x A <a) se numeşte funcţia de repartiție empirică 


aleatoare F(x) = — 
n 


calculată în x. 


Propoziția 5.2.16. Pentru orice n > 1, Y, := nF„(x) sunt variabile aleatoare 
repartizate Binomial(n, F(x)). Deci EY, = F(x), Var(Y,) = nFOU — F(x). În plus, 
FA) > Fo) 

În cuvinte: Funcţia de repartiție empirică converge aproape sigur la adevărata 
funcţie de repartiție. 


Demonstraţie 
Fie Z; = Lc, <x)- Variabilele Z; sunt î.i.d. repartizate Binomial(1,F(x)) iar 
i a Zu tDpr..+Z 
F(x) nu este altcineva decît 121 care, conform SLLN converge a.s. 
n 


la EZ, = F(x). g.e.d. 
Şi totuşi, se poate şi mai bine. 


Este adevărat că F,„(x) converge punctual la F(x). Dar funcția de repartiție FR 
— [0,1] este definită pe o mulţime nenumărabilă. 

Nu cumva mulțimea O = (o e 2| F„(d(o) — F(x) pentru orice x e RN) poate 
să fie de probabilitate mică, sau chiar 0? Noi am vrea să estimăm funcția de 
repartiție F în toate punctele, nu numai într-un singur x! 

Din fericire, lucrurile nu stau aşa. Nu numai că P(00) = 1 (ceea ce tranşează 
problema), dar se poate demonstra chiar mai mult: 


Teorema 5.2.17. (Teorema lui Glivenko) Fie A,„(0) = sup |FAA(0) — Fa) 
|distanţa uniformă dintre funcţia de repartiție empirică după n observaţii şi 
adevărata funcţie de repartiție. Atunci A, —*— 0 

Funcţia de repartiție empirică converge aproape sigur uniform la 
adevărata funcţie de repartiție. 


Nu vom da demonstraţia acestui rezultat." 
Semnalăm că ea este foarte mult îmbunătățită dacă funcția de repartiție F este 


continuă. Un rezultat de matematică grea este următorul 


Teorema 5.2.18. (Teorema Kolmogorov — Smirnov) Dacă F este continuă, atunci 


!! Cititorul interesat poate consulta Teoria probabilităților de Cuculescu (1974) sau Tudor (1980). 
Sau poate vedea mai multe referinţe aici 
http://en.wikipedia.org/wiki/Glivenko%E2%80%93Cantelli_theoremhttp://en.wikipedia.org/wiki 
/Glivenko%E2%80%93Cantelli_theorem 
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(ir? 
lim,_P( Nn A, <x) en Se 8 


X  i>l 


Metoda Monte Carlo 


Metoda se foloseşte într-o serie de probleme unde apar calcule prea grele 
pentru a fi abordate determinist. Ele sunt de două tipuri: calcul de integrale sau 
probleme de optimizare. 

Calcul de integrale. 

Să presupunem că vrem să calculăm o integrală de forma 


I = [Fl stă Meila Alte =] Fade 
C 


(5.2.5) 

unde C este un compact de măsură Lebesgue pozitivă şi fo funcţie 
integrabilă pe acel compact. Ideea este să generăm un şir de vectori aleatori 
independenți  X, repartizaţi uniform în  compactul C. Atunci 
1 a 
—(7(0 + ..+ F07,))"—gF(X). Dar, conform formulei de transport, EAX,) = 
n 


1 
ja > ate 


(C) 


Î P(x bee da = M(Ox[as. lim Tre) 7) ] 


(5.2.6) 

A simula un vector aleator repartizat uniform într-un compact nu este un 
lucru simplu. Uneori însă, este simplu: dacă C = [a.,bi]x[a2,b2]x...x [ab]. Atunci 
X, = (Xntscc-sĂnn) este uşor de simulat: componentele sale sunt variabile aleatoare 
independente repartizate Uniform(ai,bi). Toate mediile de programare (R, C++, 
Java, R, Matlab, Excel etc) au în dotare cel puţin generatoare de numere 
pseudoaleatoare, repartizate Uniform(0,1) 

Revenind la Exemplul 1.1.1]. Următoarea secvența (sau, cum i se mai 
spune, „script”) din mediul de programare „R”: 

segmentIl<-function (n) 

(xa=runif (n) ;xb=runif (n) ;pya=runif 

d=sqgrt ((xa-xb) *2+ (ya-yb) 92) 

d) 

face n simulari (instrucţiunea xa=runif (n) produce un vector de lungime 
n cu componentele variabile aleatoare repartizate Uniform(0,1) 

Cu instrucțiunea 

> d<-segment1 (1000000) ; summary (d) 

generăm 1000000 de segmente cărora le calculăm lungimea. Apoi ni se 
furnizează minimul, maximul, prima cuantilă, mediana, media şi cuantila a treia. 


[e Florisc-să hedco...d, „Deci algoritmul este 


(n) ;yb>=runif (n) 
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Sigur că este vorba de cuantilele de selecție (se poate arăta, tot pe baza 
SLLN că şi cuantilele de selecţie converg la adevăratele cuantile). Conform 
SLLN ne aşteptăm ca aceste variaile aleatoare (căci asta sunt!) să nu oscileze 
prea tare şi să ne dea informaţii despre repartiţia variabilei aleatoare X= 4-8]. 

Iată rezultatul a 10 simulări de cîte 1 milion de segmente 


Min. 1st Qu. Median Mean 3rd Qu. Max. 

0.0007994 0. 3276000 0.5118000 0.5214000 0. 7049000 
1. 3560000 

0.0002333 0.3278000 0.5116000 0.5211000 0. 7043000 
1.4010000 

0.0003137 0. 3284000 0.5117000 0.5214000 0. 7043000 
1. 3670000 

0.0005139 0.3279000 0.5119000 0.5213000 0. 7044000 
1.3760000 

0.0006177 0. 3277000 0.5117000 0.5210000 0. 7043000 
1.3880000 

0.0008395 0.3284000 0.5119000 0.5212000 0. 7041000 
1.3860000 

0.0004015 0.3283000 0.5123000 0.5215000 0. 7046000 
1. 3860000 

0.0008071 0. 3279000 0.5113000 0.5209000 0. 7039000 
1. 3790000 

0.0006265 0.3282000 0.5113000 0.5213000 0. 7045000 
1.3820000 

0.0005321 0. 3284000 0.5126000 0.5215000 0. 7046000 
1.3800000 


Observăm că media reprezintă o remarcabilă stabilitate: primele două 
zecimale nu se schimbă. La fel şi mediana. Putem avea o idee despre precizia 
estimării comparînd cu lucruri cunoscute: ştim că maximul esențial al lui X este 


2 şi minimul este 0. Maximul empiric al lui X pare să fie = 1.38 iar minimul 
pare a fi =0. 

Calculul exact este aproape imposibil de făcut. Teoretic, avem de calculat 
următoarele 


Fa) = PX < x) = P(a — xp + a — ya < x) 
(5.2.7) 

LĂ = E A xp) + (4 Ya) 
(5.2.8) 


unde A(x4,y24), B(xzya) sunt punctele aleatoare repartizate uniform în pătratul 
unitate. 

Formal, se dau patru variabile aleatoare independente: x, xp, ya, yp şi se cere să se 
calculeze cantitățile (5.2.7) şi (5.2.8). Prima revine la a calcula măsura Lebesgue 
4-dimensională 1* a mulţimii M, = x, Xa, ya Ya € [OI]: (4 — 8) + (a — ya) <x) 
Iar a doua, pe baza formulei de transport, la a calcula integrala 
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EX = [ii lea —XB y + (4 ya) dy 4 dy Ady p 

Prima cantitate se poate calcula exact, cu mult efort; pentru al doua, nu există 
formule prin cuadraturi. 

Ca să avem o idee de puterea metodei, o putem compara cu metodele 
deterministe de calcul ale integralelor multiple. Tot o sumă avem de făcut, după 
ce luăm cîte o diviziune pe fiecare axă. Dacă diviziunea este echidistantă cu 20 
de puncte, vom avea de calculat valoarea funcției de integrat în 204 = 160.000 de 
puncte. Nu e sigur că eroarea va fi mai mică! 

Putem concluziona că X este o variabilă aleatoare cu media 20.521 şi 
mediana=.512 

De curiozitate, prezentăm şi graficul unei funcții de repartiție empirice după 
100.000 de probe. 


Fct. rep.empirica dupa 100000 de observatii a v.a. X 


1.0 


08 


06 


04 


0.2 


00 


X este lungimea unui segment aleator in patratul unitate 


Calcul de maxime-minime. 


O problemă fundamentală în matematica aplicată este de a găsi maximele şi 
minimele unei funcții £C — R unde C este un domeniu din R'*. Există multe 
metode deterministe de a face acest lucru — acesta este domeniul teoriei 
optimizării. Există două tipuri de agoritmi : determinişti şi probabilişti. 

Ideea de bază a algoritmilor probabilişti este de a arunca o ploaie de puncte 
„la întîmplare” cu mai multă sau mai puţină inteligenţă . 


Propoziția 5.2.19. Fie f:C — R o funcție mărginită definită pe compactul cu 
interior nevid C < %?. Fie (X,), un şir de variabile aleatoare repartizate uniform 
în C şi Y, = max(fX),..RĂ)), Za = min(f(X),.„RĂ)). Atunci (YD este un şir 
crescător de variabile aleatoare, (Y.), este un şir descrescător . Primul 


146 


converge aproape sigur la Esssupf iar al doilea la Essinf f. ” Dacă f este 
continuă, atunci Y, —— max(f) şi Z, —— min(f) 


Demonstraţie 
Fie F funcția de repartiție a variabilei aleatoare f(X) unde X - 
Uniform(C). Deci F(x) = P(AX) < x) = PY e fox] = (f(x DAi(0). 

Fie M = ess inf f. Atunci P(Y, < M - e) = P(max(f(ă),...„R(X,)) < M - e). Dar 
variabilele AX) sunt independente, deci 

P(max(A(X),..- RX) < M- €) = PAX < M- 5, ROD) SM - e, AX) <M-c) 

= PAX) < M - OP(AX) < M - e,)...PAX)) < M - 6) = FM - e). Cum M este 
supremul esenţial, F(M - e) < 1, deci F "(M - e) > 0. Deci P(Y, < M - s) > 0. Dar 
şirul Y,, fiind crescător, are o limită, Y.. Rezultă că P(Y, <M- 8) =0v e. Deci „> 
M. Pe de altă parte, Y, < M deoarece toate variabilele aleatoare AX) au această 
proprietate. Înseamnă că Y, = M P-a.s. o Y,=M(apt.). 

Dacă funcția este continuă, nu mai este nevoie de precauţia ca ea să fie 
mărginită: sigur că este, deoarece orice funcţie continuă duce compacte în 
compacte. Mai mult, atunci maximul ei coincide cu supremul esențial din 
următorul motiv: fie M = max f. Atunci mulțimea (x e C | f(x) > M - e) este 
deschisă în C, deci are interior nevid. Orice mulţime de interior nevid are măsură 
pozitivă. Adică M are proprietatea care defineşte supremul esențial. 

Demonstrarea afirmațiilor legate de minim sau infimul esenţial este analogă. 
q.e.d. 


Observaţia 5.2.20. Acesta este cel mai simplu algoritm, deoarece lucrează „, în 
orb”, fără memorie. Perfecţionarea lui duce la „algoritmii genetici”. Dacă 
apelăm şi la un minimum de memorie, reținind punctele de minim şi maxim 
găsite, atunci putem avea o idee despre Argmin f şi Argmax f * 


Exemplul 5.2.21. Pentru a vedea cit este de tare algoritmul, să luăm o funcție 
căreia îi putem calcula extremele, de exemplu fx,y) = xAy — xy, FOI > R. 

Verificaţi că max f = fi 6, 4) = 4, minf =0. Puncte de minim sunt o infinitate — 
frontiera pătratului unitate, dar există un singur punct de maxim.. Aplicăm 
metoda Monte Carlo şi să vedem ce rezultă. După 1000 de simulări a rezultat 
minimul min f= 4.069785e-07 (în loc de 0), maximul max f= 0.2480471 (în loc 
de 0.25), punctul de maxim z = (0.5315545, 0.5295112) (în loc de (0.5, 0.5))) şi 
un punct de minim de coordonate (0.8046973, 2.083834e-06) . Dacă însă facem 


de Supremul esenţial al unei funcţii definite pe un compact de interior nevid C este un număr M 
cu proprietatea că f(x) < M pentru aproape toți x e M şi măsura Lebesgue a mulţimii (x e C | Ax) 
> M - e) este pozitivă V s>0. Similar, infimul esenţial este un număr m cu proprietatea că f(x) > 
M pentru aproape toți x e M şi măsura Lebesgue a mulțimii (x e C Ax) <M + e) este pozitivă 
Y e>0. A nu se confunda cu supremul şi infimul De exemplu, dacă f= la — la» cu A diagonala 
pătratului unitate din plan, şi A” cealaltă diagonală atunci sup f= 1, inff= -1, dar ess sup f= ess 
inf f=0. 

50 notație pentru punctele în care se găseşte maximul sau minimul. 
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10000 de simulări, obţinem minf =9.063544e-09, max f = 0.2499187, Argmax(f) 
= (0.4966409, 0.4967819), Argmin(f) =(0.9999011, 9. 165588e-05). 


De regulă algoritmii Monte Carlo nu se aplică decit in extremis — dacă nu 
avem altceva mai bun. 
Viteza de convergență la WLLM şi SLLM este dată de o = Var(X;). 


5.3. Convergenţa în repartiție 


Spre deosebire de convergențele din capitolul precedent, convergența în 
repartiție nu se referă ca convergența variabilelor aleatoare, ci la cea a 
repartiţiilor lor. Propoziția „X, converge la X în repartiție” cu notația X, —P_>X 
trebuie înțeleasă în sensul „repartiţiile variabilelor aleatoare X, converg la 
repartiţia lui X ”. 

De obicei, noţiunea de convergență este legată de o topologie: un şir de 
repartiţii F, are limita F dacă în afara oricărei vecinătăți a lui F există cel mult un 
număr finit de termeni ai şirului. 

Şi tot de obicei, noţiunea de vecinătate este legată de o distanță: o vecinătate 
a unui punct F este o mulțime care conţine o bilă de centru F şi rază €. 


Convergenţa tare 

Cele mai folosite distanţe sunt date de norme: d(F,G)=||r-G]. 

Repartiţiile variabilelor aleatoare sunt probabilități pe dreaptă. Probabilitățile 
sunt măsuri finite pe (R, B(R)). Diferenţa a două măsuri finite este o măsură cu 
semn. 

Aici trebuie amintite unele lucruri elementare: măsurile finite cu semn pe un 
spațiu măsurabil (£,E) formează spaţiu vectorial. O măsură cu semn u: E— R 
se poate întotdeauna scrie sub forma pu = u; - pu. unde pu, şi pu. reprezintă partea 
pozitivă şi partea negativă a măsurii. Aceasta este descompunerea Hahn — 
Jordan." 

Mai mult, există o mulţime 7 < £ * cu proprietatea u(£) = u(H) şi u-(E) = — 
u(E 1 H). Ea are proprietatea că u(4n7D) > 0, u(4 1H) <0 pentru orice A e FE. 

Măsura |n | = p. + use numeşte variaţia lui pu. iar funcţia definită prin ||u 


= | u (E) = 2u(7D - u(E) este o normă: ||u]|=0 => u=0 şi ui +] < ui] + mw 
V pupi Măsuri cu semn. 


'+ Vezi orice manual de teoria măsurii sau, de exemplu aici: 
http://www.math.purdue.edu/-zhang24/SignedMeasure.pdf 

'5 Ea se numeşte mulțimea Hahn ataşată lui u. Dacă, de exemplu, u = p-v, unde v este o măsură 
oarecare, atunci H= (p > 0) 
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Norma se calculează uşor dacă pu are o densitate față de o măsură adevărată, 
v: mai precis, dacă p = p-v, atunci |u]] = [|plav "* 

De exemplu dacă F şi G sunt două repartiţii discrete cu acelaşi suport, F = 
2 px, „G= 245, „atunci v = 26, „ densitatea lui F ar fi (p));, cea a lui G ar 
j j j 


fi (q)); iar distanţa între F şi G ar fi ||F- G] = Xlp;-a; |. 
j 


Definiţia 5.3.1. Fie (E,E) un spațiu măsurabil. Fie (F,), şi F probabilități pe el. 
Spunem că F, converge tare la F dacă | — F,|| — 0. Notăm acest lucru prin 


„FF 


Propoziția 5.3.2. Fie (E, E) un spațiu măsurabil. 

(0). Dacă F şi G sunt două probabilități pe E, atunci d(F, G) e [0,2]. Dacă 
d(F.G) = 0, atunci F = G iar dacă d(F,G) = 2, atunci există o mulţime A în aşa 
fel încit F(A4) = 0 şi G(4) = 1. Spunem că F şi G sunt singulare. 

(ii). Dacă v este o măsură oarecare şi F, = fuv, F = fv sunt probabilități, 


1 Y _ 
atunci F„——FSJn LEE), f O condiţie suficientă ca f, să conveargă la f 


în L! este ca f,să convearga la f v- aproape sigur. 


(iii). Dacă F, ——> F, atunci F„(A4) > FA) VA e E. Reciproca nu este 
adevărată. Ca un caz particular, dacă F, şi F sunt repartiţii de pe dreapta reală, 
atunci funcţiile lor de repartiție converg: F„(-0,x]) > F(x]. 


Demonstraţie 

(). Fie up= F- G.Deci u(£) = F(E)- G(E) = 1-1 =0. Fie H mulțimea Hahn 
ataşată lui pu. Atunci ||u]|= 2u(70 - n (9) = 2n(70. Dacă ||u|]= 2, atunci un = 1 > 
FUD — GUD = 1. Dar F şi G sunt probabilități, deci F(7D) = 1 şi G(AD) =0. 


(ii). ||£, || = [|f- flav, deci e clară echivalenţa F,—>F o fa LEE >p, 
Interesantă este cealaltă afirmație, deoarece în general nu este adevărat că dacă, 
converge la f aproape sigur, converge şi în L! (vezi exemplul 1.1.8). Dar la noi 
există condiția foarte tare ca fn să conveargă la o densitate de probabilitate. 
Folosind egalitatea |x | = 2x, - x şi avem 


'* Notaţia u = p.v este acceptată de majoritatea matematicienilor pentru a desemna măsura de 
densitate p şi bază v. Precis, sensul este (p-v)(4) =] pl „dv pentru orice A e E. Alţi autori 
folosesc în acelaşi scop notația du = pdv, care are avantajele ei, deoarece atunci cînd calculăm 
integrala, densitatea „iese în faţă”: | fă (p - v)= | fpav. 


1! Se obişnuieşte notația F(x) în loc de F((-c0,x]). Dacă suntem atenţi, nu este nici un pericol de 
confuzie: dacă A este o mulțime, F(A4) înseamnă probabilitatea lui A şi dacă x e punct, F(x) 
înseamnă F((-o,x]). 
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[| lav =21(0- 1) av-+ 00 rav = 217 = fa)dv. Sirul (f- 7): tinde v-a.s. 
la O este dominat de f care este în L!. Teorema de convergență dominată ne spune 
atunci că putem comuta limita cu integrala: lim, [|f - f„|dv = jlim| fă =0. 
(îi. FEAA) — FAJ< IF, - FIA) < |F, — Fr ||. Pentru a doua afirmaţie, vezi 
exemplul 1.3.7 de mai jos. |] 


Exemple de aplicare 


Exemplul 5.3.3. Dacă (p,), este un şir de probabilități cu proprietatea că np, — 
), cu A >0, atunci repartiţiile Binomial(n,p.) converg tare la Poisson(A). Într- 


adevăr, putem lua v = X5, măsura cardinal cu suport mulțimea numerelor 
n>0 


ă i 
naturale şi densităţile f4() = Ci p'(- pp, .AD= ca . Verificaţi că f, > fi 
LI 


Exemplul 5.3.4. Fie 7, = ( — "e + d, Atunci E, —S—> 50. 
n n 


Exemplul 5.3.5. Dacă a, > a şi b, > b, atunci Uniform(a,„b,) > Uniform(a,b). 


Exemplul 5.3.6. Mai general, familiile de repartiţii obişnuite: (Geometric(p), 
Negbin(4,p), Gamma(k, 4), N(u, 0) etc) sunt continue în parametru: A — d > 
Gamma(k,A) — > Gamma, 4); n > Hs San 65 = N(u9n) —S > N(p,0). Nu 
avem decit să verificăm că densiăţile converg. 


A OR DRE E 
Exemplul 5.3.7. Fie 4,= U C, a Îşi F, = (21 a, unde A. este măsura 
k=0 n 


Lebesgue. Fie f = Uniform(0,1) = Lowă. Atunci |E, — F| = 1 (într-adevăr, 
l dacă xe A, 
norma este egală cu Ia, — Lo, iar (Le — lo x)= -l dacă xe(0,)14,). 
$) în rest 
Totuşi, FA(4)  — F(4) pentru orice mulțime boreliană A din următorul 
motiv:remarcăm că F„(4) < 2F(A4) pentru orice A e B (9). Fie atunci C =|A e B 


(9): FA4) > FA). Familia C este un u-sistem (singurul lucru cu probleme este 

să arătăm că dacă (41) este un şir de mulțimi disjuncte cu proprietatea că F„(4:) 

> FA), atunci şi F(UA ) > FUA ) SXF(4)>5F(4) ceea ce rezultă din 
k k [i [i 


faptul că seriile F,(4,) sunt dominate de 25 F(4,)). Acest u-sistem conţine 
[ [i 


intervalele A = (-o0,x]. Într-adevăr, pentru x < 0 sau x >1 funcţiile de repartiție 
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chiar coincide: F„(x) = F(x). Dacă 0 < x < 1 se arată imediat prin inducție că 


| page ae i E pu 
Fa) x 2 deci 0<F,-F<7. 


pnl 


Deci funcţiile de repartiție converg uniform, (E, - FXA4) converge la 0 pentru orice 
A şi totuşi F, nu converge tare la FE. 


Exemplul 5.3.8. Dacă F este o repartiție discretă şi G este o repartiție continuă, 
atunci || F- G|] = 2 — adică maximul posibil. În consecință niciodată nu se poate 
aproxima în sensul tare o repartiție continuă cu un şir de repartiții discrete. 


În multe situaţii se pune problema evaluării momentelor unei variabile 


aleatoare aproximîndui repartiţia cu alta. Schema mentală este „Dacă X, —P>X, 
atunci poate că şi EX, > EX” 


Este oare convergența tare suficientă pentru a asigura convergența 
momentelor? 
Uneori chiar aşa se întîmplă, dar în general răspunsul este negativ. Dacă 


0 n 
luăm, de exemplu, X,- F£, >= pl 1 |, X= 0 80, vedem că deşi F, ——F, EX, 
n n 


= 1 nu converge la EX = 0. Problema convergenţei momentelor este dificilă. 


Convergenţa slabă 


Convergenţa tare, deşi cea mai naturală, nu răspunde satisfăcător problemelor 
de statistică. Toate repartițiile vizibile în statistică sunt repartiții empirice, deci 
sunt discrete. Exemplul 5.3.7 ne arată că nu se pot aproxima repartiţiile continui 
cu repartiţii discrete. Ce puţin nu în sensul tare. 

Teorema lui Glivenko ne spune că (uneori, vezi mai sus) funcțiile de 
repartiție empirice converg la adevărata funcţie de repartiție. O idee ar fi să 
decretăm că 


Definiţia 5.3.9.(Definiţie intermediară) Fie (F,), un şir de repartiții pe dreaptă. 
Fie F o altă repartiție. Spunem că F, > F dacă F,(x) — F(x) pentru orice x e . 


Dar această definiţie are două neajunsuri. Amîndouă serioase. 
In primul rînd, ca să fie ceva care corespunde intuiției, ar trebui ca, dacă x, — 


a ȘI R A : l 
x, atunci şi 6, să conveargă la 5,. Şi nu este aşa. De exemplu, dacă x, = —,x„— 
n n 


'5 Cititorul poate consulta, de exemplu, Ioan Cuculescu, Teoria Probabilităților, Bucureşti, All, 
1998, pg 281-368. 
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0, dar funcțiile de repartiție sunt F(x) = 1, 00 > Lot) ; limita nu este o 
[—,c0) 
n 


funcție de repartiție fiindcă nu este continuă la dreapta. Am fi vrut să conveargă 
la funcția de repartiție a lui 80, care este 10). 

În al doilea rînd, ar fi preferabilă o definiţie care să se poată extinde şi la alte 
spaţii măsurabile, nu numai la dreaptă. Am vrea să dăm un sens, de exemplu, şi 
noţiunii de convergență dacă avem de a face cu repartiţii în plan sau în spațiu. 

De aceea s-a ales altă definiție. Ea are sens pe spaţii mai generale, dar ne 
mulțumim aici cu spaţiile euclidiene, care sunt cel mai bine cunoscute. 


Definiţia 5.3.10. Fie (£,),, F repartiții pe spațiul euclidian (R“, B(R%). Spunem 
că F, converge slab la F dacă | fdF, — | fdF pentru orice funcţie continuă şi 
mărginită f. 

Notăm acest fapt prin „F„ > F” 

Dacă X,,X sunt vectori aleatori cu repartițiile F, şi F, în locul notaţiei „F, = 
F” se foloseşte, prin abuz de limbaj, notația „X,—P_> X” care se citeşte „X, 
converge în repartiție la X”. Se admite şi notația „X„—P_>F”, care se citeşte 
„X, converge în repartiție la F”. 


Proprietățile cele mai importante ale acestei noţiuni sunt sintetizate în 
următorul rezultat — Teorema Portmanteau. 


Propoziția 5.3.11. (Teorema Portmanteau) 

Fie E= SR d> 1, E = BR” şi (F£.), Fprobabilități pe (E, E). 

Atunci următoarele proprietăți sunt echivalente 

(î) | fiF, >] fdF pentru orice f continuă şi mărginită 

(îi) JJadF, | FdF pentru orice f uniform continuă şi mărginită 

(iii) limsup F„(C) < F(C) pentru orice mulțime închisă din E 

(îv) liminf F, (D) > F(D) pentru orice mulțime deschisă din E 

(v) lim FA) = F(A4) pentru orice mulțime A cu frontieră F- neglijabilă (adică 
F(ANInt(4))=00). 

(vi) (doar pentru d = 1): F„(x) > Fo) V x punct de continuitate pentru F 

(vii) (doar pentru d = 1): F„(x) > Fo) vx e unde I este o mulțime 
numărabilă densă din . 


Nu vom demonstra această teoremă. Unele implicaţii sunt simple, altele mai 
laborioase.” 


"9 Mulțimea funcţiilor reale continue şi mărginite pe MR se notează cu Cu R%). 
% Joan Cuculescu, Teoria Probabilităţilor sau 
http://en.wikipedia.org/wiki/Convergence_of measures. Sunt sute de cărți care conțin 
demonstrația. 
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Observaţia 5.3.12. Toate punctele teoremei de mai sus pot scrise în termini de 
variabile aleatoare. Dacă în loc de F, şi F punem X, şi X obținem următoarele 


caracterizări echivalente ale faptului că X, —P>ă: 
(î) Ef(X.) — ERĂ) pentru orice f continuă şi mărginită 
(îi) EF(X) — EAOO) pentru orice f uniform continuă şi mărginită 
(iii)  limsup PX, eC) < PX eC) pentru orice mulțime închisă din E 
(îv)  liminf PX, eD) > PX eD pentru orice mulțime deschisă din E 
(v) lim PX, e4) = P(X e) pentru orice mulțime A cu frontieră F- 
neglijabilă 


Observaţia 5.3.13. Nu trebuie să credem că dacă F, sunt funcţii de repartiție şi 
F„ > F, atunci şi F este funcție de repartiție. Exemplele sunt nenumărate: 1) 
sunt funcții de repartiție care converg la 0, la fel şi funcțiile de repartiție pentru 


Uniform(0,n) (adică F„(x) = min(-*)) etc. Este fenomenul cunoscut ca “escape 
n 


to infinity ” sau “se pierde masă spre infinit”. 


Observaţia 5.3.14. Dacă dorim să avem o familie de probabilități care să fie 
relative compactă (din orice şir să se poată extrage un subşir Cauchy), atunci 
trebuie ca ea să fie “tight”: pentru orice e > Q să existe un compact C cu 
proprietatea ca F(C) > 1 - e pentru toate probabilitățile F din acea familie 
(Teorema lui Prohorov)”. 


Remarcăm următoarea consecință imediată a teoremei Portmanteau: 


Corolarul 5.3.15. Fie X,.X vectori aleatori. Dacă X, —P_>X, atunci X, —P_>X. 
Convergenţa în probabilitate implică convergența în repartiție. 


Demonstraţie 


Dacă X, —F> X, atunci conţine un subşir care converge a.s. la X. Dacă f 
este o funcție continuă, atunci f(X,) converge aproape sigur la /(X). Dacă f este şi 
mărginită, teorema de convergență dominată arată că EX) — ERĂ). 


Ce avem de făcut dacă dorim să verificăm o conjectură de tipul “Fr, > PF? 
Nici una din rețetele din Teorema Portmanteau nu pare să funcționeze. Nici 
măcar în cazul unidimensional: este uşor de zis “verifică dacă F,(x) converge la 
F(x) pe o mulţime densă”, dar e mai greu de făcut. 


Există un instrument care ajută în multe cazuri, anume funcția 
caracteristică. 


* De exemplu http://en.wikipedia.org/wiki/ProkhorovY27s_theorem 
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Definiţia 5.3.16. Fie F o repartiție pe (R“B(R%9). Funcţia or: RY —L definită 
prin 

er(?) = [ei "drF(x) 

(5.3.1) 
se numeşte funcția caracteristică a lui F. (Un punct x din N" este un vector 
coloană; _t' este transpusul lui t deci t'x este produsul scalar dintre t şi x : t'x = 
DX ft bf ut taxa). Dacă F este repartiția unui vector aleator d-dimensional, X, 
atunci scriem x în loc de er şi, pe baza formulei de transport, avem 
PD) = Vezi] 

(5.3.2) 


Funcţia caracteristică are proprietatea de a fi multiplicativă: dacă X şi Y sunt 
vectori independenţi, atunci x+y > expr. Dacă este de clasă C”, atunci X are 
toate momentele finite şi ele se pot calcula prin derivări. Ea are însă o 
proprietate suplimentară pe care analogul său real (funcția generatoare de 
momente mx(7) = Ee'%) nu o are: aceea că domeniul său de definiţie este acelaşi 
indiferent de repartiția F şi că ea caracterizează astfel, repartiția. Mai precis, 
avem 


Propoziția 5.3.17. 

(î) Fie F şi G două repartiții pe (R“,B(R%) cu proprietatea că er = ec. Atunci F = 
G (Teorema de unicitate). 

(îi) Presupunem că (F,), este un şir de repartiții cu proprietatea că şirul q F, este 


convergent şi limita sa, p, este continuă în 0. Atunci există o repartiție F cu 
proprietatea că er = q şi F, > F. Sau, în termeni de variabile aleatoare: dacă 
(4), sunt vectori aleatori d-dimensionali independenţi şi ex, > e, continuă în 


d Pat PS D 

0, atunci există o repartiție F ca X, ——F. 
Nu vom demonstra nici această teoremă fundamentală. ? 
Cu ajutorul ei însă putem arăta 


Propoziția 5.3.18. 
(0. Dacă F, > F şi G, > G, atunci F.8G, > FQG (sau, acelaşi lucru în 


termeni de variabile aleatoare dacă X, —P>X, VP Y,X independent de Y,, 


atunci (A Ya) Eu (X.Y) 
(i). Dacă F, > F şi G, => G, atunci F,*G, > F*G ( în termeni de variabile 


aleatoare : dacă X, —P>X Y„—P—Y,X, independent de Y,, atunci X,+Y, 
D 
——— X+Y) 


” loan Cuculescu, Teoria Probabilităţilor sau Lukacs, E. (1970). Characteristic functions. 
London: Griffin. 
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Demonstrația se reduce la verificarea faptului banal că res = Proc şi Pro = 
Proc. g.e.d. 


5.4. Teorema limită centrală 


Am văzut că în varianta ei cea mai simplu de înțeles, Legea numerelor mari 
spune că dacă X, sunt variabile aleatoare i.id., atunci media empirică 
Ă rĂo rară 

n 
a studia mai amănunţit viteza de convergență, ar trebui să calculăm mărimea p(e) 
= P( X„-ul> e); am dori să ştim cîte observaţii ne-ar trebui pentru ca această 


Xa 1 converge aproape sigur la adevărata medie pu = EX. Pentru 


zi Ş FE Ş . = SS at 4 5 : 
probabilitate să fie mică. Dacă scriem X,„ =, probabilitatea în cauză s-ar scrie 
n 


sub forma p(e) = P( S, — nu >ne) = P(S, e (co, n(u-€)) U (n(u+),0)) 

Dacă notăm cu F, repartiția sumelor $,, atunci probabiliitatea respectivă s-ar 
putea scrie p(e) = F(n(u - 8)) + 1 — F(n(ute)) 

Ce s-ar putea spune despre această cantitate? 

Se ştie că repartiția sumei unor variabile aleatoare independente este 
convoluţia  erepartiţiilor termenilor. Întrebarea este: cum se comportă 
convoluţiile de multe repartiţii? 

Să studiem un exemplu în care se pot face calcule. Să zicem că X, = U(0,1). 
Atunci vectorul X:=(X1,...,X,) este repartizat uniform în cubul [0,1]”. Deci P(S, <x) 
= P(X e A.) unde 


As (XEO, : xi tit ans) (5.4.1) 


Dacă x < 1, este uşor de făcut calculul: P(X e 4,) este volumul simplexului 
S(X0) = (X>0: xi tut xu< x) care, din raţiuni de simetrie este 1/n! din volumul 


n 
cubului, adică F,„(x) = E „ Dacă însă x > 1, atunci trebuie scăzute din el 
A 
volumele celor n simplexe de latură x — 1 care apar (făceţi un desen în cazul n = 
n 
31). Deci 4,=S,(%) U4; (x) cu 44) = !x e S„(): x; > 1). Intersecţia unei familii 
j= 


finite de asemenea mulțimi e de aceeaşi formă. Aplicînd principiul includerii şi 
exculderii, găsim 


Fe) = ben —ci(a-1 + c2(s-2Y =...) (5.42) 


n! 


Unde suma se face atîta vreme cît x —k > 0. Ca să nu avem probleme de sumare, 
scriem 
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FA) = — Zci( (ar (5.4.3) 


unde x+ este partea pozitivă a lui x. Derivînd (sumele sunt, totuşi, finite) găsim 
densitățile 


fu) = (1) Cora (5.4.4) 


În figura de mai jos am făcut graficele densităților f cu 2 <j <6. 
Se observă cum ele capătă o formă specifică, de clopot. 


xal 


Ca sa putem compara mai bine densităţile, ar trebui să facem ca aceste 
densități să aibă aceeaşi axă de simetrie. Adică să centrăm variabilele aleatoare 
X,, scăzînd din ele media. Astfel obținem sumele centrate $,. = $, - nu unde u = 
EX, = W . Funcţiile de repatiţie centrate, notate ad-hoc cu F,. se calculează 
imediat după foemula evidentă 


Fane) = Fac nn) fac) = nl + nu) (5.43) 


Obţinem cinci grafice care se pot compara mai bine, fiindcă au aceeaşi axă de 
simetrie. 
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Totuşi, dispersiile tind la infinit, aşa că şi densitățile centrate vor tinde la 0. 
Nu putem să le comparăm bine. Ca să facem să aibă toate aceeaşi dispersie, 


împărțim la abaterea medie pătratică a lui $,, care este on , unde c? = Var(X,) = 


1 Ă j 
pi Obţinem sumele centrate şi normate 


Sa = Sapt (5.4.6) 
care au funcțiile de repartiție notate cu 
b,(x) = P(s, <x) = Fu(nu + on x) (5.4.7 
şi densitățile 
Ya) = Da) = on fu(nuto n x) (5.4.8) 


Mai jos am făcut graficele celor cinci densități centrate şi normate. Se observă 
cum se stabilizează. 
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Cine este limita? 
Să luăm un caz particular, în care chiar putem face calcule: să zicem că X, = 


Exp(1) sunt toate repartizate exponențial standard. Verificaţi imediat prin 
inducție că 


În) = rela) (5.4.9) 


Acum u=o= 1, deci conform cu (1.4.8) avem pu) ln +1 fi(n+I+An+1x) 
adică 


ali) SR ss ( + LA Î | Ix] o bmti+ Eh o 1+ [n +1x) (5.4.10) 


Dacă n este mare, n+l + x yn+l devine pozitiv, deci putem renunța la 


n 
indicator.Aplicăm formula lui Stirling, n! = =) X2rn şi avem y„u(X) = 
e 


2nn n 2nn n+|l n 


bee ret nl) _ ee (aj ate PR] ) 


Trecînd la limită avem 


n a l X Y 
. _ În+I(n+l „| n+l+Nn+Ix ax — lim] | 1+ e varii 
lim Yn (+) d | n ) Ji n+l did i 2n [ Fi) 


n— = lim 


5 
= 21[ 


158 


Logaritmăm: InL = lim ( [i pa XA n :) Dezvoltăm logaritmul în serie 


| An+l 


(In(1+p = r- PD +PA-—E4+....) şi avem 


Inc = lim| —” (n+1 A să i să că i xn + 
+ Ani 2(n +1) 3(n+ ini An 


4 


E | . mas) =, 


2 
X X 
= limi | xxn+l | 
(| 2 3An+1 4(n+l) 
Concluzie 
Şirul densităților centrate şi normate converge, în cazul în care X, sunt 


2 


[zi , : 
e 2 . Aceasta chiar este o densitate, este 
TU 


repartizate Exp(1) la funcția y(x) = 


densitate repartiției noemale standard N(0,1)! (Atenţie: limita unui şir de 
densități nu este obligatoriu o densitate, după cum ne putem convinge cu 
densitățile 7, = 1yo,(x)/n care converg la 0! ) 


Am verificat pe un caz particular 


Teorema 5.4.1(Teorema limită centrală locală) Dacă densitatea comună a 
variabilelor aleatoare i.i.d. din L” , X,)„, este mărginită, atunci densitățile y, ale 


i Ss, — Ş i dac 
sumelor centrate şi normate s, = rii converge la densitatea repartiţiei 
Gyn 
normale standard : 1, (3) > e 2 . În consecinţă, conform Propoziţiei 

TU 
5.3.2.(ii) 
Su 
Pi Re es A(0,L) (5.4.11) 


OvH 


Afirmația este valabilă într-un context şi mai general, anume dacă putem 
demonstra că există un n începînd de la care yn este o mărginită. Demonstrația 
depăşeşte cu mult cadrul acestui manual. Cine chiar este interesat o poate găsi de 
exemplu, în Y. Ptohorov, Y. Rozanov, Probability Theory, Springer 1969, pp 
190-194. Alte demonstrații, mai recente se pot găsi pe Internet, cu Google. 


Dar dacă variabilele aleatoare X, sunt discrete, atunci problema locală nu are 
sens. Se poate demonstra un rezultat mai slab. 
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Teorema 5.4.2.(Teorema Limită Centrală (TLC)) 
Fie (X,), un şir de variabile aleatoare i.i.d. din L?. Fie pu = EX, şi 5” = Var(X.). 
Atunci 


XrĂpr ră, nu Dn N(0,1) 
oNn 


Scrisă explicit, afirmaţia este că 


P 
XI ttĂ, — [i Xa 
im, | a E ss) je 2dt 
o n ȘI, 21 — 
Observaţia 5.4.3. Funcția de repartiție a repartiției N(0,1) se notează cu O şi 
este tabelată de peste 100 de ani. Acum nu se mai folosec tabelele, deoarece 
toate softurile matematice o calculează. Deci 


PP. 
o) = e 2 di 
TU 


Demonstraţie 

Dacă acceptăm teorema de convergență a funcțiilor caracteristice, demonstrația 
este simplă. Fie Y, = X, - m variabilele centrate şi q(7) = Ee” funcţia lor 
caracteristică. Ştim de la proprietățile funcţiilor caracteristice că dacă Y, sunt din 
L”, atunci q este derivabilă de două ori. Ne interesează că q e derivabilă de două 


2 
ori în 0; deci putem scrie p(7) = p(0) + 10000) + o(5-£ unde o(t) este o 


funcţie continuă şi o(0) = 0. Dar q(0) = 1, p'(0) = EY, =0 şi p''(0)=-EY,/=-o- 


1202 


Deci p(7) = 1 — + o(£). 


Calculăm funcția caracteristică a lui s,, notată cu ș,: 


it n 
——(H+Y,) 222. 2 
Pu(£) = Bes azi o'| : )- 1 die ț d 4 ă 2 : 
Ovn 2n6 OVn / no 


Atunci 


a ] a a ] - 
lim,p„(£) = exp[ lim| n ra ]= exp + —limo =e 2, 
2n no Gvn 2 02 ovn 
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p 


Dar funcţia q() = e 2 este funcţia caracteristică a repartiţiei normale standard. 
Teorema este demonstrată. g.e.d. 


Exemplu de aplicare: 
0 


q 
Binomial(n,p). Dacă n este destul de mare putem aproxima P(S, < a) cu TLC 


astfel: Avem p.= p, 5= pg . Deci 


l 
Exemplul 5.4.4. Repartiția binomială. Dacă X, = | ji atunci S, = 
p 


Pisi ca 2 (oi PP a 8 5 -a|* 2) 
ES a al alea 


Se ştie că dacă npq > 20, aproximarea este foarte bună. Prezentăm un grafic cu 
diferențele dintre funcţia de repartiție a repartiției Binomial(100,0.42) şi cea a 


repartiției N(np, i] npa *) > N(42, 24.36” ) calculate pentru x e [0,100] 


Fn-Fb 
-003 002 -001 0.00 


-004 


O 20 40 50 [=18] 100 


Index 


Pe axa Ox sunt valorile lui x iar pe axa Oy valorile diferenţei dintre cele două 
funcții de repartiție. Maximul este maimic de 0.05. Daca însă luam un caz 
extrem, cu p =0.042, situaţia se schimba 
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Fn-Fb 
-0.12 0.10 -008 -006 -004 -002 0.00 


O 20 40 50 30 100 


Index 


Diferenţa dintre probabilități poate depăşi 0.12, ceea ce este imens. Explicaţia 
este că acum u=4.2 şi probabilitatea ca X = Binomial(100,0.042) să ia valorile 4 
sau 5 este mare : 0.3653754. Ca să fie aplicabilă aproximarea normală trebuie 
ca toate probabilitățile P(X = k) să fie mici. Dacă produsul np este mic, deşi n 
este mare, atunci este preferabilă aproximarea cu repartiția Poisson(np). 
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Capitolul 6 


Simularea variabilelor aleatoare 


În dotarea calculatoarelor există de mult generatoare de numere aleatoare, 
care simulează destul de bine un şir de variabile aleatoare repartizate 
Uniform(0,1). A simula o variabilă aleatoare înseamnă ca, pe baza acestui 
generator de numere aleatoare să se construiască variabile aleatoare avînd o 
repartiție dată. 

Formal, problema s-ar pune aşa: se dă o variabilă aleatoare 
U-Uniform(0,1) şi o funcţie de repartiție, F. Să se construiască o funcţie / astfel 
ca funcția de repartiție a variabilei aleatoare X = AU) să fie F. 

Sau, mai general, se dau k variabile aleatoare (Uji i.i.d., repartizate 
Uniform(0,1) şi se cere să se construiască o funcție FR“ — R ca în aşa fel încât 
variabila aleatoare X = AU,,...„.U,) să aibă funcția de repartiție F. 

Există mai multe medii de programare care fac acest lucru în cazul 
repartiţiilor clasice. De exemplu, în „R”, mediu de programare gratuit, care se 
poate descărca de pe internet există posibilitatea simulării (şi nu numai) cel puțin 
a următoarelor repartiții 


Repartiția Numele ei în R Parametri 
beta beta a,p 
binomială binom k,p 
Cauchy cauchy m,a 

2 chisQ n 
exponentială exp A 

F f m,n 
gamma gamma VĂ 
geometrică geom p 
hipergeometrică hyper a,n, ki 
log-normală Inorm LO 
logistică logis uo? 
negativ binomială  nbinom kp 
normală norm o" 
Poisson pois A 


' Extragem k bile dintr-o urnă cu a bile albe şi n bile negre; X este numărul de bile albe. 


” Repartiția logistică are funcţia de repartiție E sa Este mai rar folosită. 
le 6 

* În codificarea “R”, x=rnorm( 1,46) produce o variabila aleatoare X — N(p,6”). Parametrul al 

doilea reprezintă abaterea medie pătratică şi nu varianța. Uneori se face confuzie. 
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Student ţ n 


uniformă unif a,b 
Weibull weibull k, A 
Wilcoxon Wilcox m,n 


Pentru a genera un vector cu n componente 1.i.d. cu aceste repartiții se 
pune în fața numelui lor din “R” litera r. 4 Apoi se pune numărul de variabile 
aleatoare dorite şi parametrii repartiție. 

De exemplu: 

x=rnorm(100,10,4);x : x este un vector cu 100 de componente repartizate 
N(10,47) 

x=rbinom(10,10,.4);x 

[1]3515464563 : xesteun vectorcu 10 componente repartizate 
Binomial(10,.4) 

x=rnbinom(6,10,.4);x 

[1]19 8 925 819 :x este un vector cu 10 componente repartizate 
Negbin(10,.4) 

x=rhyper(10,4,6,6);x 

[1]3233222213 ; x este un vector cu 10 componente 
-Hypergeometric(4,6,6) 


Întrebarea este cum generăm noi variabile aleatoare cu o repartiție care nu 
face parte din cele simulate de mediile de programare? 


6.1. Simularea repartiţiilor pe dreaptă 


Algoritmul general: metoda cuantilei 


Cum putem folosi o variabilă U = Uniform(0,1) pentru a simula o 
variabilă aleatoare X cu o repartiție dată? 

Să presupunem pentru început că funcția de repartiție a lui X este 
bijectivă. Mai precis, presupunem că există un interval / c N astfel ca F: /— [0,1] 
să fie bijectivă. Cum este şi crescătoare, fireşte că ar trebui ca F să fie şi continuă 
— dacă ar fi discontinuă într-un punct a, atunci imaginea sa, Im(F), nu ar conţine 
intervalul (F(a-0), F(a)). 


* Dacă vrem să le calculăm funcţia de repartiție punem p, pentru densitate punem d iar pentru 
cuantile (vezi mai jos) punem O. De exemplu 
x=pnorm(1,0,1);y=dnorm(1,0,1);z=Qnorm(0.01,0,1) va produce numerele x = 0.8413447 (căci 


| „20, 
(1) = 0.8413447), y = 0.2419707 = ———e gl, cu x = | şi z= -2.326348= 0 (0.02) 


jan 
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Observaţia fundamentală este că variabila aleatoare X = F'(U) are exact 
funcţia de repartiție F. Acesta este algoritmul inversei funcţiei de repartiție. 
Într-adevăr, dacă x e [0,1], atunci , ţinînd seama de ipoteza că U = Uniform (0,1) 
o P(U<x)=xV x e [0,1], avem P(X<x) = P(F(U) <x) = P(E(F(U)) < F(x) deci 


Ă PX <x) = PUS Fo) = Fa). (6.1.1) 
In general, funcţiile de repartiție nu sunt bijective. Dacă, de exemplu, X - 
x, 


Uniform(41,2,...,n)), atunci F(x) = *—— AL ia doar valorile 4/n cu 0 <A < 1. Este o 
n 


situație tipică pentru repartiţiile discrete. Dar, chiar dacă repartiţia este continuă, 
e posibil ca F să nu fie injectivă. De exemplu, dacă X = Uniform([0,1]_[2,3]), 
atunci Fy este constantă pe intervalul [1,2](verificaţi: F(x) = (+A + (0-2)+Al)2 ). 
Ce se mai poate salva în acest caz din algoritmul anterior? 
Ideea este să înlocuim inversa cu cuantila. 


Definiţia 6.1.1. Fie F o funcție de repartiție. O cuantilă a sa este orice funcţie 
reală O = Or definită pe (0,1) cu proprietatea că F(0(u)-0) <u < F(O(u)) v u. 


Dacă F este inversabilă, există o unică cuantilă, anume inversa lui F: 0=F” 

Dacă nu, pot exista o infinitate. De exemplu, dacă X = Binomial (|,  ) = 
Uniform(40,1)), atunci F(x) = 4 pentru x e [0,1) . Verificaţi că orice funcție de 
forma OQ(u) = Ls pu) + al cu a e (0,1) este o cuantilă. 


Propoziția 6.1.2. Fie FR — [0,1] o funcție de repartiție şi O:(0,1) > NR o 
cuantilă a sa. Fie U o variabilă aleatoare repartizată Uniform(0, 1). Atunci X = 
O(U) este o variabilă aleatoare avînd funcția de repartiție F. 


Demonstraţie 

Observăm că orice cuantilă este o funcție crescătoare. Într-adevăr, dacă 
u<v „ atunci O(u) < O(v) deoarece în caz contrar, O(u) > O(v) =F(O(u) — 0) > 
F(0(v)) > u > F(0(u)-0) > F(0(v)) > v > u>v. 

Arătăm că (U < F(x) < ( O(U) <x) ci U< F(x) )şi va fi suficient, pentru că 
atunci rezultă că P(U < F(x)) < P(O(U) < x) < P(U < F(x)) de unde, cum U - 
Uniform(0,1), deducem că P(O(U) < x) = F(x). 

Presupunem O(U) < x. Atunci F(O(U)) < F(x). Dar, din definiţia cuantilei, U < 
F(O(U)), deci U < F(x). Am demonstrat că 

4 O(U) <> jet U<Fa)) (6.1.2) 

Să presupunem acum că Q(U) > x. Atunci F(O(U) — 0 ) > F(x) . Dar, tot din 
definiția cuantilei. U> F(O(U) — 0) , deci U > F(x). Aşadar | O(U) >> ct U> Fo) 

Trecînd la complementară,avem că 

(OU) <x at U< FO) (6.1.3) 

Din (6.1.2) şi (6.1.3) deducem că ! U=< F(x)! < ! O(U)<xictU<FU). 

q.e.d.. 
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Două sunt cazurile extreme care interesează în calcule: cuantilă inferioară şi 
cuantila superioară. 
Cuantila inferioară, notată cu Q-, se defineşte prin relația 


Q (u)=sup!(F<u!=inf(F>u) (6.1.4) 
iar cea superioară, notată cu Q * se defineşte prin 
Q (u)=sup(F<u! =inf(F>u) (6.1.5) 


Propoziția 6.1.3. Funcţiile definite prin relaţiile (6.1.4) şi (6.1.5) sunt cuantile. 
Orice altă cuantilă O este cuprinsă între ele: O <O<0.. 


Demonstraţie 
Din definiția supremului avem următoarele lucruri evidente 
FO (u)- 8) <u, FO (u)+ e) u Vs>0 
F(O'(u) — e)<u,F(0O'(u)+ e)> u Ve>0 
Trecînd la limită cu e V 0, deducem că F(O (u) — 0)<u, FO (u)+0)> uşi 
F(O'(u) — 0) <u,F(0'(u) +0) > u. Dar F este continuă la dreapta, deci 
ambele funcţii verifică definiţia cuantilei.g.e.d. 


Exemplul 6.1.4. Dacă X - Uniform(40,1!) atunci F(x) = W pentru x e [0,1) . 
Cuantilele inferioară şi superioară sunt O (u) = Leu ou), O'(u) = La v(u) = Zu] 
deci X = PU] este o variabilă aleatoare cu repartiția cerută. 


Exemplul 6.1.5. Dacă X = Uniform(4 1.2.....n)), atunci O (u) = 1 + [nu] > X= + 
InU] 


Exemplul 6.1.6. Dacă X = Exponential(1), atunci F(x) = 1 — e * este chiar 
bijectivă de la (0%) la (0,1), deci O* = 0" =F"=> 0(x)=- In —u). Putem pune 

X = - In(1-— U). Dar U şi | — U au aceeaşi repartiție, Uniform(0,1), deci putem 
la fel de bine să punem X = - In U. 


Exemplul 6.1.7. Dacă X = Negbin(1,p), atunci F(x) = 1 —gq!, unde x >0 şi q = 


1 — p. O cuantilă a sa este O(u) = „e „ Deci X = e este o 
In(1— p) In 


(1-p) 


variabilă aleatoare cu repartiția cerută. 
Exemplul 6.1.8. În general, dacă repartiția F este discretă, 


dl adlze “Ala ti săla | | j 

F = CU ai <a <a3<..., atunci cuantilele ei sunt 
Pi P> P3 - 

O'(u) zi alo) ol sali) ass sli). şi 

O' (4) == alesul) +a sau) + Giles lu) iuti 

unde si = pi, s2 = pitpo S3=pitp2+ p3 -.: 
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Deci variabila aleatoare X = sus, „)U ) are exact repartiția F. 
H> CĂ 


lată un script în „R” care calculează cuantila unei repartiții discrete 

= MM e. d 
Pi Po PD =: Pi 
aleatoare X; „p” este vectorul care cuprinde probabilitățile ca să se ia aceste 
valori. Ambii vectori au lungimea k. Vectorul „o” este permutarea care trebuie 
făcută pentru ca numerele a; să fie puse în ordine crescătoare iar „F” este 
repartiţia propriu-zisă; acum e scrisă canonic. Vectorul „s” cuprinde sumele s, = 
put pot...+ ps. Interesant este cît de simplu este de găsit locul lui u: instrucțiunea 
which(s >= u) produce mulțimea J(u) = ţi: su) căreia i se ia primul element i = 


min(/(u)) = O (u). 


) Aici „a” este vectorul care contine valorile variabilei 


cuantila<-function (u,a,p) 

(o=order (a) sortez pe a, pentru ca se poate sa 
nu fie in ordine 

r=rbind(a[o],plo]); a=F[1,]; p=F[2,] 

calculez sumele partiale 

s=p; for (i in l:length(a))(s[i]l=sum(pl[1l:i])) 

caut locul lui u 

v=which (s>=u) ;i=min(v); g>al[i] 

q) 


Apelarea funcției se face cu instrucțiunea g=cuantila (u,a,p) 
Un exemplu concret: să se simuleze n =1000 variabile aleatoare avînd repartiția 


1(=6 0 1 2 3 
F= — 

10| 2 1 2 1 4 

n=1000;a=c (- 


6,0 1,2,3):p>c4(2,142r14,4)110ru=cunit (n;0,1) 
x=u;for (i in l:n) (xli]=cuantilat(uli],a,p)! 


Pentru a verifica dacă e bine, folosim instrucţiunea „table(x)” care arată 
repartiția empirică a unui vector x : sub fiecare valoare diferită pe care o ia 
vectorul se scrie numărul de apariţii a acelei valori (frecvenţa absolută). În cazul 
nostru avem: 


table (x) 
x 

-6 9) 1 2 3 
195 99 190 98 418 
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Valorile frecvenţelor absolute corespund celor teoretice, care ar fi trebuit să fie 
200,100, 200,100,400. Deci ese plauzibil. Există metode de verificare a 
acurateţei modelulului dat de o repartiție : de exemplu metoda „ggplot” 

Pentru valori relativ mici ale lungimii k a vectorilor a şi p algoritmul este 
satisfăcător şi rapid. Poate fi folosit pînă la k = 1000. 

Dacă, însă, vectorii au lungime prea mare încep să apară erori de maşină 
Şi, pe de altă parte, viteza lui scade. Este şi normal. De aceea, dacă se poate, ar fi 
bine să fie folosiți algoritmi rapizi bazaţi pe diverse le repartiţii care se pot obţine 
din repartiția uniformă. 

Problema este de a calcula cuantila dacă repartiția F nu este neapărat 
discretă şi cu suportul format dintr-o mulțime cu număr mic de elemente. 

Chiar dacă avem funcția de repartiție F dată printr-o formulă analitică (de 
exemplu F(x) = pF. + qF» cu Fi = Exp(1), F» = GammaQ,l) = F(x) = 1 (1 + goe” ) 
nu avem formule pentru a calcula inversa F "'(u) (în cazul de mai sus ar trebui 
rezolvată ecuația 1 — (1 + qx)e” =u , 0<u<l, care este o ecuaţie transcendentă). 
Pentru a ieşi din dilemă ar trebui să facem o discretizare a lui F. Înlocuim funcţia 
de repartiție F cu repartiţia F, = | a a ȘI aj, a unde a este 

Fa) Fin) Fla) ... Fag) Flaz-) 1-Fla) 
un număr mare şi aplicăm algoritmul cuantilei pentru această repartiție. Eventual 
un algoritm modificat în care înlocuim funcția F, cu o linie poligonală care 
uneşte punctele de coordonate (4; F(a;)); . Sigur că pierdem din precizie. 


Algoritmi speciali bazaţi pe proprietăţi ale repartiţiilor 


Două sunt operațiile mai importante care se fac cu repartițiile: mixtura şi 
convoluția. 


Definiţia 6.1.9. Fie (Fi, o mulțime de repartiții pe dreaptă şi fie (pi<i<n 
numere pozitive şi de sumă 1. Atunci repartiția F = pF, + ...+ PnFn Se numeşte 
mixtură de F. Dacă X = F; sunt variabile aleatoare independente, atunci 
repartiția sumei lor S=X, + ...+ X, este FPo*...*F,. 


De exemplu, dacă F(x) = pF. + qf» cu Fi = Exp(1), F> = Gamma(2,l), 
atunci F este o mixtură de exponențială cu Gamma. 

Observaţia este că dacă ştim să simulăm variabilele X;, atunci simulăm 
mai uşor variabilele X (cu repartiția F) şi S (cu repartiția FixPo*...xF,), fără a 
trece prin metoda pseudoinversei. Pentru S nu avem ce comenta, dar nu este 
absolut evident cum construim pe X. 


* Chiar în “R” există instrucțiunea „qgplot”. 
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Propoziția 6.1.10. Fie X; - £; cul <j <n şi fie J o variabilă aleatoare 


] n 
„Atunci variabila X:= X] 
DD o Pa 


15] 


independentă de (X); cu repartiţia J = | 


n 
are repartiția F = Xp;k;. 
j=1 


Demonstraţie 
PX <x)= PX <x)= SP(Xy <xJ = = Sel, < x)PU = j)=>F;lap; a-ed. 
j=1 j=1 j=1 
Deci, revenind la exemplul nostru cu F = pGamma(1,1) + qGamma(2,1) 


. III EI az pa i it Ag 
algoritmul exact este: simulăm variabila J = | ) Dacă J] = 1, simulăm X = 
pd 


Exp(1) = Gamma(1,1) iar dacă J=2 simulăm X = Gamma(2,1). După cum se 
vede. în scriptul următor, care foloseşte funcția „cuantila” din paragraful anterior 


mixtura<-function(n,p) 7% simulează n variabile aleatoare = pExp(1)+ggamma(2, | 
ta=c (1,2) ;pr=c (p,1-p) 


x1l<-rexp (n,1) 4 simulează n variabile aleatoare - Exp(1) 

; x2<-rgamma (n, 2,1) 4 simulează n variabile aleatoare = Gamma(2,1) 
z<-rbind (x1,x2) 4 se formează cu ele o matrice z de tip 2xn 
x=x1 7 se inițializează x 

for (i in 1l:n) 

(u=runif (1,0,1) 4 se generează o variabilă aleatoare U = Uniform(0,1) 
j>=cuantila (u,a,pr) 4 se generează variabila aleatoare ] 
x[i]l=z[3,i] 4 x =z(,.) 

) 

pd 4 se simulează n variabile aleatoare = Exp(1) 

) 


Ne putem convinge că este aşa dacă încercăm mai multe variante de p. 
Pentru p = 0 avem variabile repartizate Gamma(2,1); pentru p = % este o mixtură 
cu ponderi egale iar pentru p = | avem doar variabile repartizate Exp(1). Scriptul 
următor face cîte 5000 de simulări de fiecare tip şi apoi face greficul celor trei 
funcții de repartiție empirice, care ar trebui să semene cu cele adevărate 


t=1:5000;t=t/5000 
xo=mixtura (5000, 0) ;xo=sort (x0) 
xm=mixtura (5000, 0.5) ;xm=sort (xm) 
xu=mixtura (5000, 1) ;xu=sort (xu) 

plot (xo,t,type>="1"); lines (xm,t,col="red"); 
lines (xu,t,col="blue") 
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Exemplul 6.1.11. Să presupunem că nu avem acces la un software performant, 
dar vrem să simulăm o variabilă aleatoare X = Gamma(n, 1) cu n număr întreg. 
Cum facem? 


Soluţie 

Variabilele X; = (- InU)/A sunt repartizate Exp(1). Dar Gamma(n,A) = Exp)” 
Înv, 
j= 


Â 


exponenţiala convolutată cu ea însăşi de n ori. Deci soluţia este X = — 


Dar dacă vrem să simulăm X = N(u,0”) şi nu avem decît un software de 
bază? Fireşte, este suficient să simulăm Y = N(0,1) şi apoi să punem X = pu+ 
GY. Dar cum simulăm o normală standard? Algoritmul cuantilei nu ne dă decît o 
aproximare, pentru că nu putem calcula exact nici măcar O, funcția caracteristică 
a repartiției N(0,1), cu atît mai puţin să ăi calculăm şi cuantila. Putem face o 
aproximare bună, este adevărat, dar asta cere timp. 


Propoziția 6.1.12. Metoda Box — Muller. Fie U,V = Uniform(0, 1) două variabile 
aleatoare independente. Atunci variabilele X = sinOnU)v-2nV, Y = 
cosOnU)vj-2InV sunt două variabile aleatoare independente repartizate 


N(0,1). Deci (X,Y) = N( pie ) ) 
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Demonstraţie 
Avem de arătat că dacă fi” — N este o funcţie continuă şi mărginită, 
2 2 
X+y 


atunci EAX,Y) = fre 2 dxdy 
Tr 


Din formula de transport 


EF(X,Y) = ] ] FU 2inu cos(2a2v),v= 2 nu sin(2rv))dudv (6.1.6) 


Facem schimbarea de variabilă 
xl 2inu cos(2nv),y = V- 2Inu sin(2xv) (6.1.7) 


Rezultă x? + y = —2Inu , de unde 


u=e 2 (6.1.8) 


sin(2nv) 
De) oi 2n- 2 nu cos(2nv) _20 


Dlu,v) cos(2») 2nN — 2Inu sin(2xv) 


Iacobianul este 


Imaginea mulţimii [0,1]x [0,1] prin această transformare este N 1 10).Cum 
punctul (Oeste o mulțime neglijabilă față de măsura Lebesgue în plan, deducem 
din relația (6.1.8) că 


xy 
__2n __u st a A : . , 
dxdy = —— dudv => dudv dxdy dxdy deci relația (6.1.6) devine 
u 2n 21 
xy? 
[N Lil 2 Inu cos(2nv),/— 2Inu sin (27 ude 4, fo 2 dxdy 
T 


(6.1.9) 
exact ceea ce trebuia verificat.g.e.d. 


Prin metoda Box — Muller se generează variabile aleatoare normale 
folosind doar două variabile uniform repartizate. Este evident o mare 


simplificare. 


Există şi o metodă exactă de a simula repartiţia Poisson(?), fără a calcula 
cuantilele. Uneori ea este mai rapidă. 


Propoziția 6.1.13. Fie (U,), = Uniform(0,1) un şir de variabile aleatoare i.i.d. 


Fie 

N=mintn 1 SU pete = 1 (6.1.10) 
Atunci N = Poison(A). 
Demonstraţie 
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. l i Ă se i 
Fie o, = n şi Tu = Gt ..t 0, Atunci o, sunt i.i.d. repartizate 
Exponential(A). Logaritmînd expresia din (6.1.10) avem N = min (n: 7, > 1). Deci 
P(N = 0) = P(T>1)= e” iar dacă n > |, atunci P(N = n) = P(T, < 1, Tun > D= P(T, < 
1)= P(Ta < 1)= P(Tau > D= P(T, > 1). Dar 7, = Gamma(n, 1), deci 


2:42: n-l,n-—l 
pag Spy euae ME 0 ae 0 eee (61.11) 
1 2 (n-1) 


zu ai 4 4 A . 
Rezultă că P(7,u > 0 - P(I, > 5 = aL, A Am demonstrat chiar mai 
n 


mult: că dacă punem N(P) = min (n: 7, > 5, atunci N(£) = Poisson(A5). “g.e.d. 


Deci dacă dorim să simulăm, de exemplu, N = Poisson(1), înmulțim un 
şir de variabile aleatoare uniform repartizate pînă cînd produsul lor devine mai 
mic decît 1/e. Dacă pentru acest lucru a fost nevoie de n variabile aleatoare, 
atunci declarăm că N =n-l. 

În statistica Bayesiană apare frecvent repartiția Beta(m,n). Dacă m şi n 
sunt numere întregi, şi aceste repartiții se pot simula fără a se calcula cuantilele. 


Propoziția 6.1.14. Fie (Up, <;<„ = Uniform(0, 1) independente. Sortăm aceste 
variabile aleatoare sub forma (Uw < Uoy <...< Um). Atunci Ug = Beta(h, n+l —k). 


Demonstraţie 

Fie 4, = ț exact k dintre variabilele aleatoare U; sunt mai mici decît x ! 
Evident P(4,4) = Chxk(1-x)* . Să observăm că evenimentul (Uqy < x) se poate 
scrie sub forma 4,4 U Ang YU... UA. Cum mulțimile (4, <;<„ sunt disjuncte, 
găsim că funcția de repartiție a lui (Up este P(Up < x) = 
Chi (1 x + CEL x... Chx"(1— x)", care este exact funcţia de 


repartiție a unei variabile aleatoare Beta(,n+1 — 4). Densitatea sa este 


fir) => BCE (1 xp (6.1.12) 


Exemplul 6.1.15. Să simuleze o variabilă aleatoare X = Beta(10,2). Acum n 
= 10 + 2-1 = 11. Simulăm 11 variabile uniforme şi le sortăm; o luăm pe cea de 
a zecea. Dacă avem la dispoziție un program de sort, nu e nici o problemă. 


De exemplu, în „R ” secvența ar fi: 
u = runif(1ll);u=sort (u);x=u[10] 


* Procesul stochastic (V(7)),o se numeşte procesul Poisson de intensitate A. Se poate demonstra 
că el este cu creşteri independente, adică dacă 1, < b <...< £,, atunci variabilele aleatoare (N(7,), 
N (b) - Micu N (4) - Mr) ) sunt independente. 
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Simularea repartiţiilor d — dimensionale 
6.2. Algoritmul general: teorema de descompunere 


Ideea de bază este următoarea: orice repartiție d-dimensională se poate 
scrie ca produsul dintre o probabilitate pe dreaptă şi mai multe probabilităţi de 
trecere. 

Pentru a înţelege, să studiem următorul exemplu simplu 
Un punct aleator bidimensional Z = X + iY (îl scriem ca număr complex, 
este mai simplu) 


1(0 1 2 li 2i —lri i —l 
Su 11 1 l 1 1 1 
-l1 0 1 2 


2 321 


O şi 1. repartiția sa condiționată de faptul că X = -1 se o scriem (abuz de notație, 
dar sugestiv) 


Atunci X = | „Dacă X = -l, atunci Y poate lua două valori, 


(|) IA avem (Y| X=0) Ti (| 4) 
N Ra 9 N & SUE "4 Ace 
(IN A TRE 
| ! şi, în sfîrşit, (Y| X=2) 80. 


Pentru a-l genera, simulăm mai întîi prima componentă, cu algoritmul 

cuantilei. Apoi avem patru variante: dacă X = -l, sau X = 1 simulămpe Y 
01 . 0 IL 2) 
aa „dacă X = 0 simulăm Y- = iar dacă X = 2, punem Y =0. 
2U 1 SUI 

Ideea este că P(X = i, Y =j)=P(ĂX = P(Y =] IX i). Pentru fiecare 
valoare a lui X avem o altă repartiție pentru Y, repartiția condiționată. 
Generăm pe X şi, apoi, depinzînd de valoarea lui X simulăm pe Y cu repartiția 
condiționată (Y Xe x). 

Formal, acest lucru se poate generaliza astfel: 


Algoritmul general. Fie Z = (X,Y) e E x F un vector aleator. Să presupunem că 
repartiția lui X este II şi că există o familie de repartiții pe F, (O); er cu 
proprietatea că P(Y eB | X) = OAB). Atunci repartiția vectorului Z este 1180. 


Familia de probabilităţi (0.); e z se numeşte repartiţia lui Y condiţionată 
de X. Un mod intuitiv de a o nota este Fy|x. Un mod şi mai intuitiv este să 
scriem 0, = Fy| x-„. Aceasta este notația din statistică. Avem de lămurit ce 
înseamnă probabilitatea condiționată P(Y e B | X). Dacă X este discretă, nu e nici 


o problemă: P(Y e 8| X)= 5 P(YeB|X =x)i(x-„)unde 4 = (x e El PX=x)>0). 
xeA 


Dar dacă X este continuă, avem o problemă, deoarece P(YeB e, se x) nu are 
sens. 
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Definiţia 6.2.1. Probabilitate condiționată, medie condiționată. Fie (0,K,P) un 
spațiu probabilizat, Y: O > F, X: 2— E două variabile aleatoare cu valori în 
spații măsurabile(E, E) şi (F.F). Fie Be F. Atunci definim PY e B|X) = E(s(Y) 
IL». 
Dacă U: O — N este o variabilă aleatoare, cu moment de ordin 1, atunci definim 
E(U|X) = 0) o E(Uy (A) = E(pO)v()) 
Y w:E > R măsurabilă şi mărginită. 
Se demonstrează că media condiționată există şi că, în caz că U are şi moment 
de ordin 2, ea are următoarea proprietate de optim 
E(U - (9) < E(U — n) V n:R > R măsurabilă ca E[h(DŢ < o. 


Media condiţionată are trei proprietăți importante, care se folosesc în practică: 


- Dacă X şi Y sunt independente, atunci E[h(Y) | jr Eh(W) (a 
independență nu contează condiţionarea). Cum o variabilă aleatoare constantă 
este independentă de orice altă variabilă aleatoare, deducem că dacă X este 
constantă, E[h(Y) | X] = En(Y). 
ă E[h(Q0 | X] = n) şi, mai general, E[h()Y | X] = RODELY A] (funcţiile 
X-măsurabile se comportă precum constantele). Aici P este o funcție măsurabilă 
şi mărginită. 
- EJE[Z x,y] | X] = E[Z 4 ] (proprietatea de iterativitate). 

În particular, dacă X = constant (mod P) avem E[E[Z | Y]] = E[Z]. 


Deci, a spune că repartiția lui (Y | X) este Q îneamnă a spune că 


E[A(Y) X] = |1()do (>) pentru orice fincție măsurabilă h: E > R (6.2.1) 
Un alt mod de a scrie acelaşi lucru (de multe ori mai comod) este 

ELA) AI = | h(0U, dv) (6.2.2) 
Relaţia (2.1.1) se poate prelungi la funcții de două variabile 

En x]= ] h(X, or, dv) (6.2.3) 


Într-adevăr, formula (6.2.3) este imediată dacă (x,y) = Ax)g(y), apoi se 
prelungeşte la indicatori de mulțimi de forma Ph = Luxs ; familia mulțimilor C 
pentru care formula este adevărată este un u — sistem, deci această familie 


conţine o-algebra E O Fetc. 
Existenţa repartițiilor condiţionate este dată de: 


Teorema 6.2.2 Teorema de dezintegrare. Fie P o probabilitatea pe Ex F unde E 
= N" şi P= N". Fie II(4) = P(AxPF). Atunci există o probabilitate de trecere de la E 
la FE, notată cu O în aşa fel încit P = IO 


Nu vom demonstra această teoremă. Se găseşte în manualele de teoria 
probabilităților, de exemplu G. Ciucu, C. Tudor, Teoria probabilităților, Editura 
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Academiei, Bucureşti 1981 sau I. Cuculescu, Teoria Probabilităților, Editura ALL, 
Bucureşti 1998. Sau se poate căuta pe internet, Dissintegration Theorem. 


Important este să lămurim ce spune teorema şi să înțelegem cum se 
aplică. 


Definiţia 6.2.3. Fie (E, E) şi (F, F) spații măsurabile. O funcţie O:Ex F — [0,1] 
se numeşte probabilitate de trecere de la E la F dacă 

() aplicaţia x = O(x, B) este măsurabilă pentru orice B e F 

(ii) aplicația Br Ox, B) este o probabilitate pe F pentru orice xe E 


Putem gîndi o probabilitate de trecere şi altfel: ca o colecţie de 
probabilităţi pe F, (0), er. Condiţia (i) este una tehnică, pentru a se putea face 
calcule. 


Exemplul 6.2.4. Familiile clasice de repartiții de pe dreaptă pot fi gindite ca 
fiind probabilităţi de trecere: O, = Exponential(A) este o probabilitate de trecere 
de la (0,%) la (0,0), Op = Binomial(n,p) este o probabilitate de trecere de la 
41,2,3,...)x[0,1/ la %, erc.. 


Produsul dintre o probabilitate pe E şi una de trecere de la E la F se 
defineşte astfel: 


Definiţia 6.2.5. Fie (E,E) şi (FF) două spații măsurabile, II o probabilitate pe E 
şi O o probabilitate de trecere de la E la F. Atunci 1100 este o probabilitate pe 
(ExF, CO F) definită prin 

TE0/C) = J0,(C(,)arI(+) (6.2.4) 
unde C(x,.) = iy er | (x,y) e C). Dacă observăm că lau) = ldx,y), atunci 
putem scrie formula (2. 1.4) ca 


NeQ(0) = | |le(a, 40, (ovala). (6.2.5) 


Astfel obţinem o formulă de integrare față de probabilitatea produs. 
Definirea în acest mod a produsului este motivată de următorul rezultat 
care justifică algoritmul general 


Propoziția 6.2.6. Fie Z = (X,Y) un vector aleator cu valori în spaţiul măsurabil 
(ExF, EOF). Dacă ÎI este repartiția lui X şi O este repartiția lui Y condiționată 
de X, atunci repartiţia lui Z este 1190. 


Demonstraţie 
Fie  fExF > N o funcție măsurabilă. Avem |/(x,y)4180(x,y)= 


[re x. harita) =] nani) unde no) = | f(x, 40,4»). 


175 


Cum II este repartiţia lui X, formula de transport spune că |/(x)II1(x) = 


En(X) . Dar n) = | /(X,v)d0s(v) = EA D) | AX] (conform cu (2.1.3), deci En(X) = 
E[E[AXY) LX] = EAXY) (proprietatea de iterativitate). Aşadar EAXY) = 
| fl, y)dll 8 0(x, y). Cum egalitatea este valabilă pentru orice f măsurabilă şi 


mărginită, rezultă că repartiția lui Z = (X,Y) este I19Q. 


Scrierea statistică a acestei propoziţii este 
Fan = FO Fu» (6.2.6) 
Principiul este 
„înmulțim repartiţia lui X cu repartiţia lui Y condiționată de X”. 
Avantajul este că formula se poate generaliza 
FĂ) > F> 9 Fr 8 Fi) (6.2.7) 
În general am avea 


Fr ars) a Fry O Fix) 8.9 Fra) (6.2.8) 


Există două situaţii în care aplicarea algoritmului nu pune probleme: 
Cazul discret 


z Z Z. Zi PRI Z, 
Să se simuleze un vector aleator Z = | e a i unde 
Pi P2 P3 =: Pan 


z;= (z aleea i, sunt vectori d — dimensionali. Atunci formula (6.2.8) revine la 


POI DĂ Xa x FĂ =) = |) RX a Xa Xa >) (6.2.9) 


Cazul absolut continuu. Acum presupunem că vectorul d - dimensional 


Sai 


des 


fx (x, )= | / (coroana alx dx3...dxg 
ide 


For (02) 
fală) 
)= Fratia) 
Foc x Xa) 


m A. (32 )= 


=: Îl x (3 


Dacă folosim notațiile statistice formulele devin mai uşor de înţeles 
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JI ş 
fx (00 )= [Floci rocco bea es. da , Forte zale o Moran) 
pd-l Fa (x) 


Te car) 2233) 


Rac x) 


(6.2.10) 


VĂ XX A (23) = 


Exemplul 6.2.7. Să se simuleze un vector X repartizat Multinomial (100; 
0.1,0.2,0.7). 


Soluţie 

Repartiția multinomială Multinomial (n ; pip2,p3,.-.„pn) este o repartiție k — 
dimensională discretă definită prin densităţile discrete 

PUi-e-oin) = E phpie.pi 
Ioel 

Aici (în..si) e 10,l,...n)*. În cazul acesta, discret, putem să renunțăm la 
teorie şi să simulăm vectorul nostru Z ca pe orice variabilă aleatoare discretă: 
codificăm cumva vectorul (î,,....ip) — de exemplu îl gîndim că ar fi un număr scris 
în baza (n+1) — şi apoi aplicăm metoda cuantilei. În cazul particular de mai sus, 
am avea de a face cu o variabilă aleatoare cu (100 +1)” componente. Se poate, dar 
nu vă sfătuiesc. 

Dar, dacă ţinem seama de interpretarea probabilistică a acestei repartiții 
(se extrag cu revenire n bile dintr-o urnă cu bile de k culori diferite, urnă în care 
p; este proporţia bilelor de culoare „j” !) se verifică imediat că 


X, = Binomial(n,p.), (43 |X ) = Binomial(n — X,, P2 j 
Pot. + Pk 


06 x, 26) = Binomial(n —X, — Xa, —P3 ), ete 
Pate * Dă 
În cazul nostru concret X1 = Binomial(100, 0.1); (32| X) = Binomial(100 - X,, 
0.2/0.9) iar X = 100 — 41 — 4. 
Secvența de instrucţiuni care simulează în „R” N = 10 asemenea vectori este 


n=100;p1l=.1;p2=.2/ (1-p1) ;N=10 
xl=rbinom (N,n,pl);x2=rbinom (N,n-x1,p2) ;x3=n=x1- 
x2 ;x=cbind (x1,x2,xX3);x 
XA 382 3 
8 23 69 
23 "172 
20 172 


= 


ISS 
a 
P 00 UI 
N 
PS 
[e)) 
N 


= 
ee) 
[3 
O 
— 
O 


ISS 
Ei 
O 00 + 
DN WWW 
= O N 
NON O 
OH 


O OO IV UB WN— 

= 

IEN 
(99) 
N 
(99) 
[e)) 
p 


ai 
Ea 
O 
N 
ja 
O 
LO 
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Exemplul 6.2.8. Să se simuleze un vector X = Uniform(C) unde C este sfera 
tridimensională unitară de rază 1: C= (xy e Rl o+y+zs1) 


Soluţie 

Amintim că un vector X se numeşte repartizat uniform într-un compact din R* de 
volum nenul dacă PX e B) = 1*(B n 0) /14(0). O definiţie alternativă este că 
densitatea sa f = olc unde a = 1/ 14%(C). Aici A* este măsura Lebesgue k — 
dimensională. 


În cazul nostru f4(x,y,2) = alele y,z) - deoarece volumul sferei este 4n-1*/ 3. 
TU 
Folosim formulele (6.2.10) Mai întîi, fi, (i) [lc(, y,z)dydz. Integrala 
TU 


aceasta reprezintă aria secţiunii prin sferă făcută prin punctul (x,0,0); secțiunea 


are formă de cerc cu raza r = vl-x?, deci aria este n(l- x), deci 


3 
a 02 JI x, y)= — [lol y,z)dz 
fx 6-32) Apoi na) rel cl ; integrala este lungimea 


Da E] 


secțiunii făcute în sferă (x,y,0) , care este intervalul [- Ji 2 20 Ji 22]. 


) 34jL = x? Sa l 


deci avem fe xy = 2 pps) Deci avem în concluzie 


31 — x2 


fx (x)= 4 


Fall) ZI 2 [zale] 


2-2) 


Fest ora (2)> A fisa 27 n Ah 2-7 | €) 


Principial ar trebui să simulăm pe X, după prima densitatea. Cu valoarea lui X, = 
x astfel obținută simulăm pe X> după a doua. Găsim X =y şi, cu x şi y astfel 
găsiți, simulăm pe X. 

Se poate face, dar necesită timp şi la calculul cuantilelor se pierde mult din 
precizie. Poate e loc şi de mai bine.g.e.d. 


1)(4 3 
Exemplul 6.2.9. Să se simuleze un vector X = NM fl ) 
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Soluţie 

2 Hu o? TrOJ0 

În general, dacă X = M Me Să 171), atunci se demonstrează uşor, 
H» rOJ93 0» 

folosind funcţia caracteristică sau ce generatoare de momente, că 


2, 
& O 
XE Na şi | 20) = Na + ră =) (oii ) ) 
1 


În cazul nostru pi = w = 1, 6, =2, 02=3,r=0.5. În „R” este foarte simplu: 


mul=1;mu2=1;sig1=2;sig2=3;r=.5;N=10 

x l=rnorm(N,mu1,sig 1 );mu2yx=mu2-+r*x1 *sig2/sigl 
x2=rnorm(N,mu2yx,sig2* sgrt(1-r"2));x2 
cbind(x1,x2) 


xI x2 
1.4348022 -0.4392765 


x1 


Pentru dimensiuni mai mari, algoritmul general nu mai este satisfăcător nici 
pentru simularea vectorilor aleatori normali, deoarece formulele de calcul pentru 
(| X,....X.0) devin tot mai complicate. 
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6.3. Algoritmi speciali: repartiţii uniforme 


Problema 6.3.1. Fie C < %* o mulțime compactă de volum M(C) > 0. Să se 
simuleze un vector X = Uniform(C). 


Am văzut că algoritmul general pune mari dificultăţi chiar în cazurile 
simple. De exemplu, chiar şi pentru o mulțime simplă, cum ar fi simplexul C = A3 
= (2) e [0IŢ :x +y + z < It,unde densităţile sunt uşor de calculat am avea 


probleme: LA = 6la fx (x)= 3 x) 1,0%), fax, (x,y)= Gl x Ytya => 

fi xy) = a ae) La prima densitate e uşor de calculat cuantila, la 
—X 

a doua e greu. 


Algoritmul acceptare / respingere. Ideea este să generăm vectori 
aleatori unifom repartizaţi într-o mulțime mai mare, unde este comod de făcut 
aceasta, şi să reținem doar acei vectori care sunt C. Cel mai comod este să 
includem C într-un hiperparalelipiped [a.,b.]x...x[ab4] 

Formal, rezultatul este următorul: 


Propoziția 6.3.2 Fie C < A c N" două compacte de măsură pozitivă şi fie (X,), un 
şir de vectori aleatori i.i.d. repartizaţi Uniform(C). Fie N = inf (n: X, e C) şi Z = 
A. 

Atunci Z = Uniform(C). 


Demonstraţie 
Fie p = PX, e C). Atunci PN = n) = p(l —p)”!, deci probabilitatea ca nu 
nimerim niciodată în C este 0. Fie B < C o mulţime boreliană. Atunci 


P(Z e B)= PO e B)= LP(Xu eB,N=n)= 


n>l 


P(X, e B) 
Pl e Cvj<n,X, e B)> n sPlX e Ovj<n,X, eC)= 
> ( j ECvj<n,ă, e ) P(x, je că ( j £Cvj<n,ă, e ) 
k k k 
P(X, e B) p(l- ph = P(X, e B) Eu ai ed ce voiam. 
P(X, e C) săi PU )e 0) A(C)/i(4) (0) 


Viteza algoritmului depinde, evident, de raportul dintre volumul lui C şi 
volumul lui A. În cazul C = A;, putem lua A = [0,1]? — mai bine nici nu se poate. 
Cum raportul dintre volume este 1/6, ne aşteptăm ca în jur de o şesime din 
punctele generate Uniform(A) să fie şi în C. Chiar aşa şi este: după 120 de 
simulări, am reuşit să nimerim de 23 de ori în A. 
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N=120;x1l=runif (N) ;x2=runif (N) ;x3=runii 
v=which (s<1) ;nf=length (v) 
xbl=1l:nf;xb2=1L:nf;xb3=1l:nf 
for (i in 
(xbl[i]=x1[v[i]];xb2[il=x2[v[il]];xb3l[il=x3[v[i]]) 
x=cbind (xb1,xbP2,xb3);x 
xbl xb2 xb3 
[1,] 0.261076623 0.001725541 0.59342688 
[2,] 0.329976494 0.618442961 0.02125208 
[3,] 0.070146402 0.406062445 0.41304084 
[4,] 0.551778257 0.067009293 0.28671116 
[5,] 0.229001845 0.150103106 0.29779559 
[6,] 0.145313528 0.550778716 0.19904163 
[7,] 0.019184817 0.133237032 0.68866607 
[8,] 0.180765220 0.394726553 0.23718938 
[9,] 0.619285529 0.085581634 0.19468893 
[10,] 0.012022830 0.403672086 0.19543799 
[11,] 0.420006088 0.054411151 0.36632268 
[12,] 0.042866380 0.024161682 0.77753557 
[13,] 0.394432793 0.135697418 0.09784523 
[14,] 0.342567456 0.325553098 0.11622695 
[15,] 0.439633231 0.135284625 0.04868877 
[16,] 0.002924559 0.660988999 0.21707588 
[17,] 0.442618400 0.198682676 0.14334936 
[18,] 0.055533753 0.397702978 0.21110361 
[19,] 0.102202073 0.703533423 0.04253352 
[20,] 0.101106154 0.433682927 0.38915822 
21,] 0.458446015 0.205739238 0.10033640 
22, ] 0.067286825 0.133509017 0.29028897 
23,] 0.229641613 0.620405543 0.06375227 


1 


F (N) ;s=x1+x2+x3 


nf 


Dacă însă k, dimensiunea simplexului, în loc să fie 3 era 7, atunci 
volumul său era 1/7! = 1/5040. Din 120 de simulări era foarte probabil ca nici 
una să nu fie în mulțimea dorită. 

Avem şi o veste bună: dacă C este un simplex, atunci există algoritmi 
rapizi care generează vectori repartizaţi uniform acolo. El se bazează pe 
următoarea descoperire 


Propoziția 6.3.3. Simularea rapidă a vectorilor repartizați uniform într-un 
simplex. Fie n+1 variabile aleatoare i.i.d. Ai <;< „+ repartizate Exponential(1). 


X. 
Fie S suma lor şi Y;= Ea . Atunci vectorul Y = (Y)i<j< este repartizat Uniform(A,) 


unde A, = (xe[O0,l]: x torta Sl. 
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Demonstraţie 
Fie f: k”— N o funcție măsurabilă şi mărginită. Avem de calculat Ef(Y) 


în speranţa că rezultatul va fi n! | fa” . Din formula de transport, avem 
A 


n 


Sed 00 08 aa 
Ef(Y) = i/| Dac RIA -j “Lo my (cepe sa badea Chei. Aici s este suma xi 
ss s : 


ie ab Iu! 


Facem schimbarea de variabile 


: . Dl s.-.X 
Yi XS, Ya = XS, Ya = XS » Yn+u > s. Jacobianul ei este Dour) = si, 


Vi:un41) 


imaginea mulțimii [0,20)'x[0,c0) prin ea este A, x [0,0) deci integrala devine 


RAI) Î Flo 2 "ela, (i NR Lo cc) (5 ir do pd = 


ÎL (sa), A, (oc )bidyo dy, [s"e ds , adică exact ce doream — căci a 
0 


doua integrală este n!. g.e.d. 


În general o mulţime se numeşte simplex n dimensional dacă este 
anvelopa convexă a unei mulțimi de n+l puncte şi, dacă, în plus, are interiorul 
nevid. De exemplu, pentru n = 2, orice triunghi ABC este un simplex, cu condiția 
ca nu cumva cele trei puncte să fie coliniare. În spaţiu, orice tetraedru ABCD 
este simplex dacă nu cumva cele patru puncte sunt coplanare. 

Frumuseţea este că simplexul S = S(a) cu virfurile a1a2....anan+: se poate descrie 
întotdeauna sub forma 


S = Taăl ț aă Fisa aău ț al X x - a Ă) : (A „XA, SR, ce [= A (6.3.1) 


Şi de aici se vede ce avem de făcut pentru a simula un vector uniform 
repartizat acolo: simulăm vectori aleatori repartizaţi unifom în A,. 


Exemplul 6.3.4. Să se simuleze un vector aleator repartizat U(C) unde C este 
triunghiul ABC 


Soluţie. Fie a,b,c afixele celor trei puncte. Atunci 


= aă, + bă, +că, 
X +A +Ă3 


unde X; sunt i.i.d şi = Exponential(1). 
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Mai există un caz în care suntem norocoşi: dacă X = N(u,C). Atunci 
folosim următorul truc: 


Propoziția 6.3.5. Fie C o matrice pozitiv definită şi A o matrice simetrică cu 
proprietatea că 4? = C. Fie Y = N(0,l) (adică un vector normal standard — cu 
toate componentele i.i.d = N(0,1)). Atunci X = AY + yu este un vector repartizat 


N(uC). 


Demonstraţie 
Evident. X este normal, EX = pu şi cov(X) = cov(AY + pu) = Acov(Y)A” = AA” = 
4? q.ed. 


Ca să construim construim pe A scriem matricea C la forma diagonala C 
= ODO” unde O este matricea vectorilor proprii, care sunt ortogonali, D este 


matricea diagonală care cu valorile proprii, înlocuim D cu vD - adică cu 
matricea care pe diagonală are radăcinile pătrate ale valorilor proprii şi punem A 
=Ov/DoO.. 

Dacă avem un software care e în stare să calculeze vectorii proprii, nu e 
nici o problemă. lată, de exemplu, o funcție în „R” exact acest lucru 


+simularea unei repartitii normale k-dimensionale 
normal<-function (mu, cov) 
(k=length (mu) ;jor>=eigen (cov) ;valp=jor[[1]] 
valp sunt valorile proprii 
vecp=3]or[[2]] vecp are vectorii proprii 
kk=k"2;diag=1l:kk;diag=diag-diag;dim(diag)=c(k,k) 
for (i in 1:k) (diag[i,il>sgrt(valp[i])) 
a=vecpS$* $diagt*St (vecp) 
u=rnorm (k,0,1) ;x=aS%*Su+mu 
x) 


Funcţia se apelează prin comanda 
x=normal (mu, €) 


Pentru a o apela este nevoie de vectorul mu = pu al mediilor, si de 
matricea de covarianță C. lată un exemplu:simulăm 10 vectori aleatori N(u,C) cu 


de Si săi 
u=(23)şi C=| 1 9 2 
-1 216 


xx> 1:30; dim(xx) = c(10,3= 
for (i in 1:10) (xx[i,l>normal (mu,c)); xx 
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SN N 


> N 


SSN 


O VO O IV U BB W DNH— 


> N 


[„1] [,2] [,3] 


1.3356960 2.7749180 15.06867494 
2.3000149  1.3544057 -1.01883329 
-1.3323644  0.8461128 10.02604282 
0.9394982  0.8378104  7.92561663 
2.0869182  0.7712231 -7.0146417] 
0.2167368  1.6627487  0.05478921 
0.7415051  3.6121115 3.01237874 
0.5663550  1.6125076 -1.61308129 
0.6628614 -1.1853937 12.85524488 
5.2891190  0.4922314  0.82281214 
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Capitolul 7 


Statistică descriptivă 


Introducere 


Statistica descriptivă este ramura statisticii ce se ocupă cu prezentarea, 
organizarea şi interpretarea unei colectii de date. Descrierea acestor informaţii se 
poate face grafic (prin liste, grafice liniare, de distribuţie etc.), sau prin indicatori 
statistici (medie, mediană, abatere etc.). 


7.1. Prezentarea datelor statistice 


Analiza statistică a unui fenomen începe cu statistica formală (culegerea 
datelor asupra fenomenului respectiv şi înregistrarea datelor). Datele sunt apoi 
analizate şi interpretate, cu ajutorul statisticii matematice. 


Definiţia 7.1.1. Prin populație statistică (populaţie) se înțelege orice mulțime 
care formează obiectul unei analize statistice. Elementele unei populaţii 
statistice se numesc unităţi statistice sau indivizi. 


Caracteristica este trăsătura comună unităților unei populaţii statistice. 
Valoarea numerică a caracteristicii se numeşte variabilă aleatoare. De exemplu, 
dacă ne referim la repartiția componenților unei echipe de fotbal, după înălțime, 
constatăm că mulțimea sportivilor formează populaţia statistică, fiecare fotbalist 
este o unitate statistică şi înalțimea este caracteristica studiată. 

Matematic, o populaţie statistică este o partiție a unei mulțimi E, E=7/A4,, 
„..; An p, submulțimile 44, ... , A, fiind clase. Unităţile statistice care compun o 
clasă A; sunt alese pe baza unei relații de echivalență, care reprezintă 
caracteristica populaţiei. 

Caracteristicile pot fi calitative sau cantitative. Caracteristicile cantitative 
pot fi măsurate folosind numere reale. Integrarea datelor cantitative în text are 
anumite avantaje, dar tabelele statistice permit realizrea unor comparații. 

În tabelul 7.1.1, avem informaţiile privind durata medie a vieţii în 
România, in perioada 1998- 2007 (conform Institutului Naţional de Statistică), 
prezentate sub forma de tabel, evidențiindu-se, astfel, aspectele importante ale 
datelor. Obesrvăm astfel că aceasta valoare creşte, începând cu anul 2003, după o 
scădere nesemnificativă. 
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Anul Durata medie 
de viata 
1998 69,24 
1999 69,74 
2000 70,53 
2001 71,19 
2002 71,18 
2003 71,01 
2004 71,32 
2005 71.76 
2006 72,22 
2007 72,61 


Tabelul 7.1.1 


Reprezentarea grafică realizată pentru studierea schimbărilor sau pentru 
compararea variabilelor statistice se numeşte grafic. Există mai multe astfel de 
reprezentări. 

Reprezentarea cu batoane foloseşte batoane verticale sau orizontale, a 
căror lungime simbolizează valorile variabilei statistice. Batoanele verticale se 
folosesc, de obicei, pentru caracteristici care variază în timp. Între batoanele 
consecutive se lasă, de regulă, un spațiu de jumătate de unitate. 

Figura 7.1.1 este reprezentarea cu batoane pentru datele din tabelul 7.1.1. 
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1998 1999 2000 2001 2002 2003 2004 2005 2006 2007 


Figura 7.1.1 
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Reprezentarea cu batoane orizontale prezintă variante adaptate, de exemplu 
reprezentarea pe componente. Diagrama cu batoane grupate furnizează o metodă 
de prezentare a părților componente ale unui întreg, fără realizarea unei 
comparații cu întregul. 

Dacă ne referim la datele din Tabelul 7.1.2, privind structura populatiei 
pe medii (urban, rural), data furnizate de 


Tabelul 7.1.2 


Anul | Urban(%) | Rural(%) 
1960 32,1 67,9 
1970 36,9 63,1 
1980 45,8 54,2 
1990 54,3 45,7 
2000 54,6 45,4 
2001 54,6 45,4 
2002 53,3 46,7 
2003 53,4 46,6 
2004 54,9 45,l 
2005 54,9 45,l 
2006 55,2 44,8 
2007 55,1 44,9 
2008 55,0 45,0 


Institutul Naţional de Statistică, se obține reprezentarea cu batoane orizontale pe 
componente, din figura 7.1.2. 


ai Rural(%) 


0 50 60 70 80 
Figura 7.1.2 
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Graficul liniar pe porțiuni este format din segmente de dreaptă ce se obțin 
prin unirea perechilor de valori corespunzătoare ale unei perechi de variabile 
diferite. 

În tabelul 7.1.3, sunt prezentate datele furnizate de Institutul Naţional de 
Statistică privind totalul numărului de imigranți, în perioada 2003-2008. 


Total 

Anul imigranți 
2003 3267 
2004 2987 
2005 3704 
2006 7714 
2007 9575 
2008 10030 


Tabelul 7.1.3 
Pentru acest tabel, am realizat graficul liniar pe porțiuni din figura 7.1.3. 


Total imigranți 


2003 2004 2005 2006 2007 2008 
Figura 7.1.3 


Diagrama circulară arată descompunerea unui întreg în părțile sale 
componente. Ele se exprimă ca procente din total şi sunt reprezentate prin 
segmente de cerc, unghiurile la centru având măsuri egale cu procentul 
corespunzător din 360%. 

Figura 7.1.4 arată structura cheltuielilor din domeniul cercetare- 
dezvoltare, din punctul de vedere al surselor de finanțare, în România, în 2001. 
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Alte surse 
1%] 


Fonduri externe 
8% 


D Unităţi economice 
Vaal Scoica m Fonduri de la buget 
48% 

D Fonduri externe 
Fonduri de la buget 


4830, D Alte surse 
(0) 


Figura 7.1.4 


În continuare, ne vom referi la distribuții şi reprezentarea lor prin 
diagrame şi tabele. 


Definiţia 7.1.2. O variabilă statistică se numeşte discretă dacă ea nu poate lua 
decât valori izolate în intervalul său de variaţie. Ea se numeşte continuă dacă 
poate lua toate valorile posibile în intervalul său de variație. 


Ca exemplu de variabilă discretă, ne putem referi la numărul capitolelor 
unei cărți, numărul articolelor produse de o fabrică etc.. Pentru cazul continuu, 
putem da ca exemplu înălțimea unei persoane, ora sosirii unui tren etc.. 

Ne referim în continuare la cazul variabilei continue. 

Să considerăm un eşantion de 40 de angajaţi al căror salariu brut 
exprimat în mii lei, la începutul lunii ianuarie, conduce la datele din tabelul 
7.1.4. 


0,831 0,904 0,896 0,961 0,981 
0,956 1,705 1,591 1,156 1,221 
1,587 0,991 1,981 1,459 1,861 

0,82 1,141 1,452 1,344 1,42 
1,805 1,052 1,731 1,75 0,976 
1,091 1,201 1,895 0,972 1,071 
1,605 0,989 1,858 1,081 1,492 
1,594 1,354 1,946 1,671 1,057 


Tabelul 7.1.4 
O descriere precisă a seriei statistice obţinute se realizează prin 
construirea unui tabel al frecvenţelor, în care observaţiile sunt clasificate în 
raport cu numărul unităţilor statistice care se află între anumite limite. Tabelul 
7.1.5 prezintă frecvențele pentru datele anterioare, privind salariile. Astfel, 
marginile claselor de valori (0,8; 0.95 ...) din tabelul 7.1.5 sunt limitele sau 
marginile clasei de valori. Media aritmetică a limitelor unei clase se numeşte 
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mijlocul sau valoarea centrală a clasei. Diferenţa dintre cea mai mare şi cea mai 
mică margine se numeşte domeniu sau amplitudine. Frecvența absolută este dată 


Limitele Mijlocul Frecvența | Frecvența Frecvența | Frecvența 

clasei clasei absolută | relativă(%) | cumulată cumulată 

absolută | relativă(%) 
[0,8;0,95) 0,875 4 10 4 10 
[0,95;1,1) 1,025 12 30 16 40 
[1,1:1,25) 1,175 5 12,5 21 525 
[1,25;1,4) 1,323 2 Ş 23 31.9 
[1,4;1,55) 1,475 5 12,5 28 70 
[1,55;1,7) 1,625 5 12.2 33 82,5 
[1,7;1,85) 1,7173 4 10 37 92,5 
[1,85;2) 1,925 3 123 40 100 


Tabelul 7.1.5 

de numărul unităților statistice aflate între limitele unei clase, iar cea relativă este 
raportul dintre frecvenţa absolută şi numărul total al unităților statistice. În cazul 
în care nu este precizat, prin frecvenţă se înţelege frecvență relativă. Mulțimea 
frecvenţelor (absolute sau relative), împreună cu clasele lor formează frecvența 
distribuţiei. Frecvența cumulată a unei clase este suma frecvențelor până la clasa 
respectivă, clasele fiind ordonate crescător. 

În general, este indicată utilizarea a 10-20 clase de valori. 

Histograma este o reprezentare cu batoane, fără spaţiu între acestea. Ea 
prezintă marginile claselor pe axa orizontală şi frecvențele pe cea verticală. 

Histograma pentru datele din tabelul 7.1.4 este prezentată in figura 7.1.5. 


Figura 7.1.5. 
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Poligonul frecvenţelor este un grafic liniar pe porțiuni, mijloacele claselor 
fiind reprezentate pe axa orizontală şi frecvențele pe cea verticală. Fiecare mijloc 
are o frecvență, marcată printr-un punct. Punctele consecutive se unesc prin 
segmente de dreaptă, rezultând poligonul frecvenţelor. 

Figura 7.1.6 prezintă poligonul frecvenţelor pentru datele din tabelul 
7.1.4 (pe axa absciselor s-au folosit rotunjiri, pentru a da doar două zecimale). 


Frecvenţa(%) 


0.875 1.025 1.175 1.325 1.475 1.625 1.775 1.925 
Figura 7.1.6 


Poligonul frecvenţelor cumulate este un grafic liniar pe porţiuni, care se 
realizează similar cu poligonul frecvenţelor, singura schimbare fiind aceea ca în 
locul frecvenţelor apar frecvențele cumulate. 


7.2. Caracteristici numerice 


Ne vom referi acum la descrierea informaţiilor folosind indicatori statistici. În 
acest sens, există două mari categorii: măsuri ale tendinței centrale (media, 
mediana, moda etc.) şi măsuri ale variaţiei sau împrăştierii (amplitudinea, 
abaterea etc.). 

În continuare, prezentăm principalii indicatori ai tendinței centrale. 

Într-o distribuţie (ne referim la variabilă continuă), clasa cu cea mai mare 
valoare a frecvenței este clasa modală, iar mijlocul acesteia este moda variabilei. 
În tabelul 7.1.5, clasa modală este [0,95;1,1), iar moda este 1,025. 

Să ne referim acum la o mulțime de date de selecţie (variabilă discretă), 
moda este valoarea cu frecvența maximă. 

Să considerăm o grupă formată din 20 de studenți care susțin un test la 
matematică, obținându-se rezultatele din tabelul 8.2.1. Aici, moda este 8. 


Definiţia 7.2.1. Pentru cazul discret, mediana unei mulțimi x 1, X> ,..., X m (datele 
de selecţie sunt ordonate crescător) este valoarea de mijloc, xim-+1)p, dacă m este 


ă A , : , E l ă 
impar, şi media celor două valori de mijloc, 2 (mp2 F*Xm/2+1), dacă m este par. 
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De exemplu, media mulţimii 5,6,8,9,12 este 8, iar pentru 15, 18, 20, 14, 
28, 30 se obţine mediana 2 (20+24)22, 


Nota Frecvența Frecvența 
absolută relativă(%) 

3 l 5 

4 l 5 

5 2 10 
6 A 10 
E Ș 25 
8 6 30 
n, 2 10 
10 l 5 


Tabelul 7.2.1 


Definiţia 7.2.2. Pentru o variabilă continuă, clasa cu frecvența cea mai mică ce 
, S E SR ; a M Ă 
are proprietatea că frecvenţa cumulată asociată este mai mare decât su m fiind 


numărul total de clase, se numeşte clasa medianei. 


Notând cu m numărul total de clase, ma mediana distribuţiei, f; frecvenţa 
pentru clasa /x;.1,x;), F; frecvența cumulată pentru clasa /x;-1,x;) şi [xj-1,x;) clasa 
modală. Efectuând o interpolare, obținem următoarea 


Definiţia 7.2.3. Într-o distribuţie, valoarea medianei este dată de relaţia 


0,5 a Fi 
Mai hi, 
fi 
unde h;=xXi-Xi-r, Fir <0,5 i Fi; >0,5. 


Pentru datele din tabelul 8.1.5, clasa mediană este [1,1;1,25), iar mediana 


este îi pepe 090 2) 103 


> 


Definiţia 7.2.4. Media(de selecție) a unei mulțimi X 1, X> ,..., X m se defineşte prin 
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De exemplu, dacă lista de preţuri, în lei, pentru centrale termice, este 
următoarea: 9900, 10300, 11200, 12500, 7600, 17500, costul mediu al unei 
centrale este 


3 = 2(0900:+10300-+11200+12 500-+ 7 600-+17500) 11500. 


Dacă x /,x2,..., x Sunt valorile distincte ale lui X, iar n; este frecvenţa lui 
x;, formula se rescrie 


k 
A ni pe A 
Notând f;= —-, rezultă x = >, f;xX;, (“media ponderată”). 
m 
i=l 


Definiţia 7.2.5. Considerăm un tabel al frecvenţelor cu k clase. Dacă x 1, 3 o 


* 4-8) EA 
X m sunt mijloacele claselor, ni, n2, ..., nx frecvențele lor absolute şi fi, fo, ..., fi 
frecvențele lor relative, atunci media distribuţiei este 


k 
* 
Înx i 
i=i 
mai precis 


Pentru datele din tabelul 7.1.5, media este 
pă 40,875 + 12.1,025 + 51,175 + 2-1,375+ 5:1,475+ 5-1,625+ 41,775 + 31.925 


4+12+5+2+5+5+4+3 


=1,3175; 

Se observă că media nu dă o imagine completă a datelor de selecţie sau a 
distribuţiei. De exemplu, mulțimile 42, 2, 2, 5, 8, 8, 81, (3, 3, 5,5,5,7,71,414,4, 
4, 5, 6, 6, 6! au aceeaşi medie, dar au structuri diferite. Acesta este motivul 
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pentru care sunt introduse măsuri ale variației, care să arate gradul de împrăştiere 
a datelor în jurul mediei. 


Definiţia 7.2.6. Pentru o variabilă discretă, diferența dintre cea mai mare şi cea 
mai mică valoare a selecţiei se numeşte amplitudine. 

Pntru o variabilă continuă, amplitudinea este diferența dintre limita 
superioară a clasei cu cele mai mari margini şi limita inferioară a clasei cu cele 
mai mici margini. 


Definiţia 7.2.7. Fie x 1, X2 ,..., X m date de selecţie având media x . Abaterea 
medie se defineşte prin relaţia 


1 — 
sii: 2 —x|. 


Să considerăm următoarele date de selecţie: 12, 15, 13, 20, 13. Media lor 


este x = - (12+15+13+20+13)= 14,6, în timp ce abaterea medie are valoarea 


am.= Z(12 14,6 |+ |15 —14,6|+]13—14,6|+|20—14,6]+|13-—14,6]) 


52390, 
Altfel spus, valorile de selecție diferă în medie cu 2,32 față de media 


14,6. 
Fie x 1 x>,., Xa valorile distincte ale lui X, având media x, iar n; 
frecvenţa lui x; . Atunci 
k 
În; |x; —x| 


ni da AR i 
Notând cu f;=-— frecvenţa relativă, rezultă x = d fe | ob ae | 
m 
i=l 
Pentru datele din tabelul 7.2.1, abaterea medie este a.m. = 1,3. 


Definiţia 7.2.8. Fie o variabilă continuă cu un tabel al frecvenţelor cu k clase. 
AS * * * Fe 

Dacă x 1, X2 vi... X m Sunt mijloacele claselor, nu, nz ..., nx frecvențele lor 

absolute şi fi, f>, ..., fufrecvenţele lor relative, atunci abaterea medie este 
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adică 

k n a 

am.= >; k; —x| 
i=l 


Pentru tabelul 7.1.5, calculăm abaterea medie şi obținem valoarea 


sef 2,99625 . 
40 


Definiţia 7.2.9. Fie x 1, x2 ,..., X m date de selecție cu media x. Dispersia se 


defineşte astfel 


Shu -sf. 


i=l 


s |- 


o =,|— 


] m 
Sl — x este abaterea de selecție (empirică) standard. 
m £ 

i=l 


Fie x /,x2,..., Xx valorile distincte ale lui X, cu media x, iar n; frecvența 
lui x; . Formula pentru calculul dispersiei devine 


SE N; a zi 
Dacă frecvenţa relativă este f;= —, rezultă o? = Dă fil; i. x) 
m 


Dispersia corespunzătoare datelor din tabelul 7.2.1 este 
2 = sl-e 7) el (4410045377) 9 (6 De 2e5037)2 


le) 


6:(8—7)242+49—7)2 +1-(10 72]=28, 


în timp ce abaterea standard este o =1,673. 
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Definiţia 7.2.10. Fie o variabilă continuă cu un tabel al frecvențelor cu k clase. 
Dacă x 1, X> v.., Xa sunt mijloacele claselor, ni, na, ..., nx frecvențele lor 
absolute şi fi, f>, ..., fu frecvențele lor relative, atunci media distribuţiei este 


mai precis 
k PE 
o = >, fi ; — -L i 
i=l 
Pentru datele din tabelul 7.1.5, dispersia este 2 = a = 1114, iar 


abaterea este o = 1,055. 


7.3. Corelaţie. Regresie 


Legătura dintre două sau mai multe variabile poartă numele de corelație. 
Conexiunea aceasta se poate prezenta sub mai multe forme, cea mai simplă fiind 
relația y = f (x), unde / este o funcție de variabila x, egalitate ce arată că lui x îi 
corespunde o valoare bine determinată a lui y. 

Mai jos sunt prezentate notele la algebră şi geometrie obținute de zece 
studenți. 


Nr. crt. Nota Nota 
algebră | geometrie 
1 5 5 
2 6 5 
3 6 6 
4 6 7 
5 7 7 
6 7 8 
7 8 8 
8 9 9 
9 10 9 
10 10 10 


Tabelul 7.3.1 
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Vom reorganiza datele de mai sus sub forma unui tabel cu două intrări, 
astfel: notele la algebră sunt reprezentate pe axa absciselor, iar cele la geometrie 
pe cea a ordonatelor. 


5 6 7 8 9 10 | my 


= 

(ao) 
NO 
(94) 


Ş 4 
8 8 
7 A 
6 6 
5 ai 


mx | 5,5 6 05| 7 [99-10 


Tabelul 7.3.2 


Vom indica existența unui student ce ia note corespunzătoare unui pătrat 
printr-un punct situat în interiorul acestuia. De exemplu, studentul cu notele 7 şi 
8 se va regăsi în pătratul (7,8). Acest tablou se numeşte tablou de corelație. 

Observăm că, în general, creşterea notelor la algebră este însoțită de 
crețterea notelor la geometrie. Astfel, între aceste variabile există o corelație 
pozitivă. Punctele din interiorul tabloului de corelaţie se grupează în jurul unei 
diagonale a pătratului, deci se poate afirma că avem o corelație liniară. 

În figurile 7.3.1 şi 7.3.2, am reprezentat grafic pe mx în raport cu x ţi pe 
my în raport cu y. 


12 | 
10 ? 
| 
8 
| 
6 A Ss, 

: | 
| 
2 
9) Pa] 

9) 2 4 6 8 10 12 
Figura 7.3.1 
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= 


O => NUP BI O NOoO OO 
d 


6 8 
Figura 7.3.2 


[) 
N 
ES 


mx ŞI my se numesc funcţii de regresie. In figurile de mai sus, graficele 
lor se grupează în jurul primei bisectoare. In figura 7.3.1, avem regresia lui y 


asupra lui x, iar în figura 7.3.2, regresia lui x asupra lui y. 


Pentru fixarea ideilor, să considerăm V(Ă, Y) un vector în plan, X şi Y fiind 
variabile aleatoare. Statistic, suntem interesați de situația în care vectorul V ia un 


număr finit de valori, vi = vila bu) j=1,m, k=ln, vecorul având 


componentele  a;,bk.  Notând Pl = v 4 )= Pik,avem px 20 şi 
mn 
>, Ă, Pjx =. Tabelul 7.3.3 se numeşte tabel de corelaţie. 
j=lk=l 
b b ba Y 
(ZA) Pl 
(75) p2 
dm Pml Pm2 Pmn Pm 
ă Pl 25) Pn 


Tabelul 7.3.3 


Au loc următoarele relaţii: 
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n m 
X Pip Il. X Ppobas bla 
= j=1 


n 


m 
Pr>l Xp; =]. 
k=1 j=1 


pj, respectiv px, se numesc probabilităţi marginale şi reprezintă 
probabilitatea ca X =a;, respectiv Y = by, penrtu orice valoare a celeilalte 


variabile. 
Similar cu valorile medii pentru variabilele unidimensionale se definesc 
cele pentru variabilele bidimensionale. Dacă notăm 


mn 
TIS 
ms > 2 uPirajbi 
j=Ik=1 
obținem, ca valori particulare: 


m n m 
mo SS pay Sai 
îsi 


j=U=1 
m n 

moi = Y Xp jebe » 
j=UK21 


care se notează, de obicei, prin m, şi respectiv m, ele fiind coordonatele 
centrului de greutate. 
Momentele centrate se definesc prin: 


m n 
Urs = Ele m (rm) = >; mb, -my. 
j=lk=1 
Momentele centrate de ordinul al doilea au denumiri speciale în teoria 


probabilităților. Astfel, ug se notează cu o? şi reprezintă dispersia lui X, 


H02, notat 02 „este dispersia lui Y. 44 este covarianţa variabilelor X şi Y. 


m 
> piai 


Dacă notăm prin F(x == =I valoarea medie a lui X, 
Pj 
condiţionată de Y =b;, obţinem modul de comportare al variabilei X atunci 


când Y ia valoarea b; Având în vedere toate valorile (a;,b ) SA Im, iar b; 


j 
rămâne fix, diversele medii condiţionate referitoare la a; caracterizează modul de 
variaţie al variabilei X pentru Y = b; fixat. 
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Se poate caracteriza această variaţie pintr-o relație X = / (Y A astfel ca 
m» (x — f(b j) lJY=b ;) să fie minimă, m> fiind momentul de ordinul al doilea. 


În general, se încearcă o exprimare de forma Y=ax+f, astfel ca 


E Y — 0LĂ — 1) să fie minimă. Având în vedere că 
m n 2 
EY-aX -x) = > vub; —adj -B) 
i=1 j=1 
şi derivând în raport cu 0, se obţine dreapta de regresie 
_ P92 EX — m Y = m) 


y = m = (x—m). Am notat prin p= coeficientul 
îi VE m Pr m) 


de corelație. 
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Capitolul 8 


Teoria selecţiei 


Introducere 


Teoria selecției s-a dezvoltat datorită necesităților practice. În multe situaţii, 
apare necesitatea de a obţine informaţii relevante despre mulțimi cu număr mare 
de elemente, neexistând posibilitatea reală de a studia fiecare element în parte. În 
aceste cazuri, se poate examina o selecţie (eşantion) din mulțime, în ideea ce 
informaţia obținută este utilă pentru întreaga populaţie studiată. Numeroase 
aplicații au condus la axioma potrivit căreia un eşantion dă informaţii utile 
despre întreaga mulțime şi că, pe măsură ce selecţia creşte ca volum, datele 
obținute sunt din ce în ce mai fidele. 


8. 1. Generarea valorilor particulare ale unei variabile aleatoare 


Simularea unei variabile aleatoare este utilizată atât în statistică (procedee 
de eşantionare), cât şi în modelarea stochastică. Această simulare se poate realiza 
cu ajutorul unor obiecte (zar, ruletă), sau algoritmizarea generării unor valori 
numerice pe calculator. Calculatoarele din ce în ce mai performante au 
determinat, în principal, orientarea spre cea de a doua metodă. 

În ceea ce priveşte clasificarea, există generatoare de variabile aleatoare 
uniform repartizate şi neuniform repartizate, ultimele construindu-se, în general, 
pe baza celor din prima categorie. 

Variabile aleatoare discrete uniform repartizate. Fie X o variabilă 


Ş E O PRI e a E cioc 
aleatoare discretă P(X =i)=-—, i=1,n. Simularea acestei variabile aleatoare 
n 


utilizează o funcție g:/ EV, „ unde / este mulțimea numerelor întregi 
reprezentate în calculator. Pornind de la valorile inițiale x, x2, ..., x, şi folosind 
relația de recurenţă x, = g(x_ps---Xn_1), n>k, se generează o secvență de 


numere. Şirul (3) este periodic, deoarece / este finită. Acest generator este 


suficient de bun dacă perioada lui este mare în raport cu numărul de valori 
generate şi valorile generate nu sunt secvențial corelate, adică secvenţe de p 
valori succesiv generate ocupă spaţiul de dimensiune p. Aceste două condiţii pot 
fi îndeplinite printr-o alegere adecvată a funcției g. Metodele congruențiale sunt 
cele mai utilizate. Ele se bazează pe o relaţie de recurenţă de forma 


Xp = Flocpo_p on )modm 
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unde f:/ SEE să 

Este comod să alegem funcția liniară 
Flor ate bi) Xp Foo FOpXn-k FC dr «4, fiind valori întregi. 

Metoda generează valori cuprinse între O şi m-l, motiv pentru care m se 
alege cât mai mare. Pentru k=0, avem generatori de ordinul întâi. În acest caz, 
a=16807, c=0, m=2"! —1 sau a=24298, c=99991, m=199017 sunt câteva seturi de 
valori adecvate. 

Variabile aleatoare continue. Simularea unei variabile aleatoare continue 
uniforme pe [0,1] se realizează prin generarea de valori întregi uniform 
repartizate pe mulțimea (0, 1, ..., m-l! şi prin împărțirea lor prin m-l. Pentru o 
variabilă aleatoare uniform repartizată pe (0,1) se generează valori din mulțimea 
41, .... M-I+, care se împart la m. O variabilă aleatoare X, uniform repartizată pe 
(a,b) se generează cu ajutorul unei variabile aleatoare Y, uniform repartizată pe 
(0,1) după care se efectuează schimbarea de variabilă X = (bP-a)Y +a. 

În cele ce urmează, ne vom referi la metoda inversării funcţiei de 
repartiție. 

Fie X o variabilă aleatoare având drept funcție de repartiție F: R— [0,1], 
atunci inversa ei se defineşte ca F'O)=txeR| F()>ul, (YV) uelO,l], 


rezultând astfel o posibilitate de algoritmizare în vederea simulării variabilei. 
Pentru diverse repartiții concrete, se obțin diverşi algoritmi. 


i a sad , E; X; = 
Repartiţii discrete. Fie X o variabilă aleatoare discretă, A: | ; ) i=l,n, 
Pi 


n 
d p;,  p; > 0. Această variabilă are funcția de repartiție 
i=l 
F, =0,x<x; 


Ea aice E sai 
G) FD Dazte C 2 
k=I 
1,x >x,. 


Atunci inversa funcţiei de repartiție se determină astfel: 

e (4) = X 
ori de câte ori F(x,,)<u<F(xp), i=ln, unde xy=—0, F(xy)=0. 
Algoritmul de simulare constă în generarea unei valori u, uniform repartizate în 
(0,1), şi în determinarea indicelui i astfel încât F,, <usF,. 


Exemplul. 8.1.1. Să considerăm o variabilă aleatoare binomială X, cu funcția 
de repartiție 
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0,x <0; 
k 
FO) Cip (Up) uk -l<x sk 
i=0 


lx>n. 


X poate fi simulată prin construirea tabelului asociat funcţiei de repartiție şi 
aplicarea metodei clasice de căutare. O altă posibilitate este de a simula 
extragerile cu revenire şi de a număra de câte ori se produce evenimentul de 
probabilitate p. În acest sens, se consideră N, cel mai mic număr natural pentru 


care n, = Np şi n, = Np Sunt naturale şi se construieşte tabelul corespunzător, 
cu valorile t, = 12 => =1 e mi E aa Sed = 0. 


m+2 "mn 


Exemplul 8.1.2. Fie acum o variabilă aleatoare geometrică X, având funcţia de 
repartiție 


0,x <0; 
k 
F(>)= par k-l<x<k, 


i=0 
Ix>n 
unde p+q =, pe(0,l). 
X poate fi simulată prin aplicarea modelului clasic de căutare sau prin 
simularea variabilei aleatoare cu ajutorul monedei trucate în aşa fel încât 
probabilitatea apariţiei valorii sa fie p, iar cea a stemei sa fie g. Astfel, variabila 
X arată la a câta încercare se obține stema prima dată. 


Repartițiile continue. În situaţia în care se cunoaşte expresia inversei 
funcției de repartiție, se poate utiliza forma generală a algoritmului. În caz 
contrar, se utilizează algoritmul specific repartiţiilor discrete. In prealabil se 
determină intervalul (FF, ] ce conţine pe u, calculându-se 
uU— Fiu 
F; zi Fi 


Facem precizarea că aici x” reprezintă valoarea obținută, şi nu x,. 


R 
XE = a F(X, —Xia) 


Exemplul 8.1.3. Fie X o variabilă aleatoare exponențială, cu funcția de 


Ax 


repartiție F(x)=1-e"*, x,A > 0. Inversa lui F este F(u) = ia —u), iar 


u este uniform repartizată în (0,1). Astfel, şi l—u este uniform repartizată în 
(0, 1), rezultând astfel imediat algoritmul de simulare. 
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Exemplul 8.1.4 Fie X o variabilă aleatoare Weibull, cu funcția de repartiție 
F(x) = 1 si „a,b > 0. Algoritmul de simulare se dudece uşor, pe baza faptului 


b 


l 
că inversa funcției E este F(u) = - —In(l— ) 
a 


Exemplul 8.1.5. Ne referim acum la simularea variabilei aleatoare normal 
repartizate, mai precis la metoda bazată pe teorema limită centrală. Conform 


ej rau 


le) 


acesteia, dacă X,X3....X, e N(w65), atunci şirul Z, = 


n 


A il uA5 Y e inaafă AIR 
este convergent în repartiție către Z e N(0,l). Să considerăm ta ŞI 


udat dC, E 
2 


Yn 


VI2 


Pentru _ n=12, algoritmul de simulare devine simplu, întrucât 
Zis > Aa tiger Ap 6 


st aa Atunci obținem Z, = 


Exemplul 8.1.6. Generarea variabilelor x? şi Student se bazează pe legătura 
lor cu repartiția normală standard. 


8. 2. Variabile de eşantionare 


Fenomenele din natură, studiile sociologice au consacrat metoda sondajului. 
Problema care se pune este de a determina caracteristica unei populații formată 
din N indivizi, prin prisma rezultatelor x,, x2, ... , x, obţinute prin n experienţe 
indepenente. x; se numesc valori de eşantionare, iar populaţia este distribuția 
teoretică. Dacă populaţia este infinită, sau poate fi considerată infinită, singura 
metodă de cercetare pentru determinarea caracteristicilor distribuţiei teoretice 
este metoda selecţiei (sondajele de opinie). Acelaşi lucru se realizează şi pentru 
un număr finit de indivizi (controlul antidoping realizat pe un număr mic de 
componenți ai unei echipe). 


Definiţia 8.2.1. O subcolectivitate a unei colectivități cercetate se numeşte 
selecție sau sondaj. Numărul elementelor selecției este volumul selecției. 


Definiţia 8.2.2. Valorile obținute pentru indivizii care intră în selecție privind 


caracteristica X de numesc date de selecţie relative la caracteristica X, 
Pentru o selecţie de volum n vom nota datele de selecţie cu x, X2, ..., Xa. 
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Definiţia 8.2.3. Datele de selecţie xr, x2, ..., Xn Sunt valorile unor variabile 
aleatoare X,, X>, ..., Xu, care se vor numi variabile de selecție. 

Pe parcursul întregului capitol vom avea în vedere notaţiile menţionate 
în definiția anterioară. 


Definiţia 8.2.4. O funcție de variabile de selecţie a cărei valoare devine 
cunoscută când variabilele de selecție sunt înlocuite prin valorile de selecţie se 
numeşte statistică. 


Sondajul este operaţia de colectare a elementelor unui eşantion din 
populația statistică examinată. Există sondaje cu revenire (bernoulliene), când 
elementul extras din populația considerată este reintrodus în colectiv înainte de 
efectuarea unei noi extrageri, sau sondaje fără revenire. 

Colectarea elementelor din eşantion conduce la realizarea mai multor 
tipuri de sondaje. Sondajul pur aleator se obține cand unitățile statistice au 
aceeaşi probabilitate de a fi alese din eşantion (sunt echiprobabile). Dacă se 
prestabileşte un principiu, se efectuează un sondaj dirijat. În cazul în care 
populația examinată este împărțită în grupuri (straturi) în raport cu o 
caracteristică prestabilită, avem un sondaj mixt. Acestea pot fi de mai multe 
feluri: sondaje stratificate simple fără revenire, sondaje stratificate (tipice) în 
două faze (se aleg mai întâi r straturi din cele deja existente, iar după aceea se fac 
extrageri aleatoare din fiecare strat). Dacă din fiecare start tipic se extrage un 
număr de unități ales astfel încât raportul dintre volumul eşantionului de strat şi 
volumul stratului să coincidă cu raportul dintre volumul eşantionului general şi 
volumul total al populaţiei, se realizează un sondaj stratificat proporțional. Un 
sondaj în care volumul eşantionului nu este fixat inițial şi prelucrarea continuă 
până când un anumit eveniment se realizează se numeşte sondaj secvențial. 

Cercetarea şi perfecționarea metodelor de analiză a datelor experimentale 
privind un anumit fenomen depind de volumul eşantionului ales. Datele pot fi 
ordonate după anumite criterii, spre exemplu: momentul din timp şi locul în care 
s-a produs fenomenul frecvenţa apariţiei acestuia. 


Definiţie 8.2.5. Frecvența absolută n, reprezintă numărul de apariții ale unui 


rezultat în cele n experimente efectuate asupra eşantionului, în timp ce frecvența 
relativă f, este raportul dintre frecvenţa absolută şi volumul eşantionului. 


Există trei moduri în care pot fi organizate rezultatele x,,x,,...,.x, ale 
Ei aaa d ) : | 
măsurătorilor. Primul dintre acestea este x, <x, <...<x,, unde n, =l, f;,=—, 
n 


i=1n, n fiind volumul eşantionului, n, frecvențele absolute ale apariţiei 
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valorilor x, corespunzătoare, iar f; sunt frecvențele relative, cel de al doilea ar fi 


I 
ma 
ip ete cate te Pa (au RU = îl, 


Să presupunem acum că măsurătorile pot fi grupate în k intervale de 
valori, de lungime egală, fiecărui interval corespunzându-i un reprezentant X,, 


i=1,k. În această situaţie, frecvențele absolute asociate fiecărui interval sunt 


egale cu numărul de valori ale caracteristicii măsurate în intervalul respectiv. 
Apare astfel cel de al treilea tip de serie statistică, şi anume 


A A A N, 
Îi E Cal Ra hi Ele Sil 


Deosebirea față de cel de al doilea tip constă în faptul că în serie apar 
reprezentanţii intervalelor. 
Fie X caracteristica examinată. Ea poate fi caracterizată prin 


X. n 
A ud fl 
5 


sau prin funcția empirică de repartiție, notată F, . Pentru seriile din primele două 
categorii, aceasta are forma 


| 0,x<x, 
F (D= Ss „SXx< xi =Lk+l. 
j=l 
Pentru ultimul tip, e empirică de repartiție este dată de 
(xl, 
F, (3) = + SE fala Săli Er 


k fiind numărul atita, (1,1; ), lar d lungimea acestor intervale. 

Este uşor de remarcat faptul că funcția empirică de repartiție este 
analogul funcției de repartiție a unei variabile aleatoare discrete finite. 

Datorită diversității mărimilor obţinute, şi aici sunt necesare analiza şi 
organizarea datelor. Tendinţele de grupare şi împrăştiere în jurul unei tendinţe 
maxime se măsoară cu indicatori care se definesc similar cu cei definiți in 
capitolul 8, de aceea nu îi vom reaminti. 


Definiţia 8.2.6. Media de selecție (momentul de ordin 1) este definită prin 


relaţia 
Ta n 
An dr 


Dacă x; reprezintă valoarea observată a variabilei X, valoarea numerică a 
acestei statistici este 
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Definiţia 8.2.7. Momentul centrat de selecţie de ordinul r este dat de relaţia 
1 x — 
hr = DA, 
j>l 


notație pe care o vom folosi şi pentru valoarea momentului de selecţie de ordin 
Fr, 


Rezultă de aici valoarea dispersiei de selecție, 
e sie E 
SE y (x —X). 
a 
j=>l 


În paragraful următor vom demonstra proprietăţi privind media de 
selecție şi dispersia. 


Exemplul 8.2.8. Să considerăm un eşantion de 20 de clienți ai unui magazin 
alimentar. Ne propunem să studiem frecvența X cu care clienţii fac apel la 
serviciile magazinului de-a lungul unei săptămâni şi să cercetăm cheltuielile 
lunare Y în zeci de lei ale clienților pentru achiziționarea de produse din 
magazinul respectiv. Datele de selecție sunt următoarele (în ordinea în care au 
fost obținute): 

X :2,1,1,4,3,2,5,6,1,2,3,2,3,4,6,2,4,3,2,1; 

Y :90,9,101,88,85,77,102,100,86,97,76,121,113,110,96,9,2,108,1 12,109,103. 

Datele de selecție pentru caracteristica X au n =6 valori distincte, rezultând, 
astfel, pentru aceasta, distribuţia empirică 


|, 2 3 456 
Ă: Ş 
4 6 4312 
În cazul lui Y, vom face o grupare a datelor de selecție corespunzătoare, în 
intervalele |10,80), 80,90), ..., rezultând, în acest mod, următoarea distribuţie 
75 85 95 105 115 *) 


2 4 4 6 3 l 
Mediile de selecţie ale celor două caracteristici sunt: 


empirică Y: | 


X = lei +6-2+4.3+3.4+1.5+2.6)= 2,85 


Y = (2-75 +4-85+4.95+6-105+3-115+1.125)= 985. 
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Pentru momentele centrate de selecție de ordinul al doilea, obținem: 


20 
l ae ul 7, 2 5 
Pg Sa n) Se 14127185) 1:00:85) 403785) 
pu (X) 20 dt ) | ( ) ( ) ( ) 
3.(4— 2,85) +1-(5— 2,85) +2-(6—2,85)7 )= 2,3275. 


20 


w(P)= Xe Y) = 
FE] 


6-(105—98,5) +3-(115-98,5) +1-(125—98,5)7)= 18245. 


e (15 —98,5)7 + 4-(85—98,5)7 +4.(95—98,5)7 


l 
20 


Funcţiile de repartiție de selecţie ale celor două caracteristici sunt: 


= 
= 

IA 
A roi 


89) 
A 
= 
IA 
SI 


* 
F2ox (0) = 


„ 4<x<5; 


lo Sa zl 


— 
O 


= 


x > 6 


respectiv 
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= 
IA 
zi 


„75<y<85; 


85 < y <9; 


s|» s|- * 


Ne) 
(92) 
A 
i 
A 
= 
O 
O 


* 
For 9)= ; 


u|Pp >|—= 


105 < y <115; 


„115 <y <125; 


I_|—= 
O|O 


= 

ei 
V 
o) 


Repartiţii statistice bidimensionale. Ne  îndreptăm acum atenția asupra 
populațiilor statistice care au două caracteristici (cantitative sau calitative). Să 
considerăm X şi Y caracteristici cantitative ale unei populaţii, pentru care s-au 
determinat valorile x, X2,-.-,X,, respectiv y,,Vao---,V,. Fie n, frecvențele 


pr? 


absolute ale cazurilor pentru care X=x, şi Y=y,, i=lr, j =1s. n fiind 
momentul selecției, în mod evident relația DE = n. Frecvenţele relative 


i=1 j= 
i, Pe Ss 
L . A . IV) N) 
=], 52) Ji, = n, şi sunt trecute într-un tabel de corelaţie, asemănător 
i=l j=1 


unei matrice cu r linii şi s coloane. 


sunt 


Definiţia 8.2.9. Momentul de selecţie de ordinul k în raport cu X şi Y este dat de 
relaţiile: 


La Ss La NR 
mo => S fst = 5 fox =, 
21 


21 j=1 
La Ss i La i i, 
mor = XX fijyi = Yo => 
21 21 i=1 


unde fo =>, și fu = XJ, 
= i=l 


Definiţia 8.2.10. Momentul de selecție de ordin h în raport cu X de ordin k în 
raport cu Y se defineşte prin 
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La S 
mu => Sfat ă 


i=l j=1 
Momentele centrate uypy. se definesc în mod asemănător. 


Definiţia 8.2.11. Momentul centrat mixt de ordinul al doilea, 


La Ss 
pur > fiti DU; 9) 

i=L j=l 

reprezintă covarianța de selecție, în timp ce coeficientul de corelaţie este 
— Do —2, 
= HU S$, Ss» fiind dispersiile de selecţie ale celor două variabile 
S|52 

individuale. Coeficientul de corelaţie reprezintă, de fapt, o măsură a dependenţei 
celor două variabile X şi Y. 


8.3. Legi de probabilitate ale variabilelor de eşantionare 


Principiul fundamental al statisticii matematice afirmă că frecvența 
experimentală de apariţie a unui eveniment converge către frecvența teoretică, 
datorat lui Bernoulli. 


Teorema 8.3.1. (Bernoulli) Fie a, numărul de apariții ale unui eveniment A în 
n experimente independente şi p probabilitatea de realizare acestui eveniment în 


n 


: Sa Ş a „i A DE , 
fiecare experiență. Dacă f, = este frecvenţa relativă de apariţie a acestui 
n 


evenimentului, atunci şirul (f,) conversge în probabilitate către p. 


Demonstraţie 


Deoarece a, =mf,, a, este o variabilă binomială, aşadar E(a,)=mp şi 


n 


Var(a, ) = np(-— p). Au loc următoarele relaţii, având în vedere inegalitatea lui 
Cebiîşev: 


Pl fu. — pl] < £)= Pila, == np| < ne)= 
Pa, Map) < ne))> 1- PU) = 
n n ns? 
a pe pPU-p) 
a a e 
ne 
De aici rezultă că lim P(f, — p| < e)= I, qed. 


NO 
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Această teoremă permite doar evaluarea directă a probabilității p de producere a 
unui eveniment. Când ne referim la o variabilă aleatoare, pentru obținerea de 
informaţii globale trebuie să facem apel la teorema lui Glivenko. 


Teorema 8.3.2. Fie F funcția de repartiție a statisticii X, şi F; funcția de 


repartiție de selecție corespunzătoare unei selecții bernoulliene de volum n, 
atunci 


r| lim max 
no x—00 


F* (x) -F(s) = 0) =, 


Pentru demonstrație, îndrumăm cititorul spre lucrarea [11]. 

Teoremele de convergență arată condiţiile în care repartiția statistică 
(empirică) tinde către cea teoretică. Aceasta din urmă nu este cunoscută, de cele 
mai multe ori, ea putând fi apreciată doar cu ajutorul momentelor de diferite 
ordine ale variabilei considerate X. În această situaţie, apare însă problema de a 
studia în ce măsură diversele momentele de selecţie converg către momentele 
teoretice. Trebuie să precizăm că valorile variabilei X rezultate din măsurători 
sunt, de asemenea, variabile aleatoare, numite variabile de selecție. Ele depind de 
eşantionul ales, aşadar momentele de selecție devin, la rândul lor, variabile 
aleatoare. 

Dacă X este o variabilă aleatoare examinată printr-o selecție de volum n, 


obținută printr-un sondaj pur aleator, care are momentele E(X si ) şi dispersia 
Var(X), atunci variabilele de selecție  X,,X5,..X 
aceeaşi repartiție ca şi variabila iniţială X, aceleaşi momente şi aceeaşi dispersie. 


„ Sunt independente, au 


Teorema 8.3.3. Dacă repartiția teoretică a unei variabile este normală, de 
medie pu şi dispersie 07, atunci distribuţia mediei de selecție obținută prin 
sondaj pur aleator este de asemenea normală. 


Demonstraţie 
Variabilele de selecţie sunt independente şi normal repartizate. Folosind 
k 
notațiile anunțate la începutul paragrafului, media de selecție, X = X. fă, 
i=l 
este o combinaţie liniară de variabile repartizate normal, aşadar are tot repartiție 
normală, parametrii fiind însă următorii: 


=> k k [3 
M(X)=M| XIX; |= MOD =; =: 
i=l i=l 


i=l 
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k k 
Var(X) = Var fă, = 05. fi „q.ed. 
i=l i=l 


Observaţia 8.3.4. În cazul unei serii statistice din primul tip descris anterior, 
2 


ă : il O 
dispersia mediei are valoarea —. 
n 


Teorema 8.3.5. Fie Xy,X A j=1k, selecții independente din 


j Ăă 


Does n) 


populații normale N(u 50) şi As j =1,k, mediile de selecție. Atunci 


k k 
variabila  Y = Sa jĂ j este de asemenea normală, de parametri d His 
k 2 
29) 
respectiv >» a;——. 
Da 
j=l J 
Demonstraţie 
o2 
Aplicând teorema precedentă, rezultă că X; e N|p poi . Variabila Y, fiind 
4) . 
J 


combinaţie liniară de variabile normal repartizate, este tot normal repartizată, 
calcule asemănătoare celor din teorema anterioară conducând la determinarea 
parametrilor săi. g.e.d. 


Teorema 8.3.6. Dacă X e N(O, 2) şi Xp, Xa. X reprezintă variabile de 


n 
selecție obținute prin sondaj pur aleator, atunci Y = pa E, e 2 (1,6). 
i=l 
Demonstraţie 
Considerăm Y; = 2 şi ă;e N(0,02 )i = Lin. Au loc relațiile: 


Fy, (0) = PU <x)= PUP < x) = PO < X; <x),>0. 


i cip -/ 
Deoarece Fy, (x) = Pai | aie sd Duiliu şi fr, (x) = = e /292 „ rezultă 
OV21 E, Ox 2nx 


că We 2 (n, 0). Funcția caracteristică a lui Y arată că ea este variabilă din 


2 (n, 6), g.ed. 
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Teorema 8.3.7. Fie X = (X RD, e IODED die y o selecție obținută prin sondaj pur 


aleator dintr-o populaţie caracterizată de o repartiție normală redusă şi 
n 


A = (a; <a o martice ortonormală. Atunci variabilele V; = pă jkĂk> 
k=l 
j =1,n, sunt independente şi normal repartizate, de parametri 0 şi 1. 


Demonstraţie 
Dacă V = Vasea, deoarece V = AX şi matricea A este ortonormală, au 
loc relațiile: 
< 2 . 2 
— 
DV; =V'V=X 4 AX XXV. 
Funcţia caracteristică a vectorului V devine, succesiv: 
n 
i Dave l 


n 
Pp (fos fn) E er=l = NZZ: | NE 
R 


2 
5.5 : n i n n 
2 “d =] [e 2 =[[ox,o=[lox, o. 
Variabilei V; i se asociază funcţia caracteristică următoare 


it Sa ma 
pp,(9=Eje 


2 
n n “ju > Sal, isi 

Dia 
Î|ox, cam=|le 2 =e“  =e2=0x,0. 
k=l k=l 


Acest lucru arată că V; sunt normal redus repartizate. Având în vedere că 


funcția caracteristică a vectorului V este chiar produsul funcţiilor caracteristice 
ale variabilelor componente, rezultă că V; sunt variabile independente, g.e.d. 


Teorema 8.3.8. Dacă X = (X 79,9 PRRUE. 03 y este o selecţie obținută prin sondaj 


pur aleator dintr-o populaţie caracterizată de o distribuție normală redusă, 
atunci variabilele: 


| x = 
U=—=9 XX, =xVnă, 
Tdi 
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n n 


=> -I =? :P2)) 


i=l i=l 
sunt independente. În plus, U e N(0,1) şi Ve 2 (n —1,). 
Demonstraţie 
U este o combinaţie liniară de variabile independente identic repartizate, 


aşadar U este normal repartizată, cu parametrii: 
E(U)=0, 


Var(U) = D692) = TnVar(Xi) =]. 


- it ră i ase "4 l i 
Să considerăm acum o matrice ortonormală A, în care ap =—,Vk, şi 
n 


V = AX = VW Vase.Y). Având în vedere teorema anterioară, V; e N(0,). 
Egalităile 


n Pi n Pi | n 2 n Pi | n 2 
34 = YA, => de, = XA, zale x; =V 
j=2 iz N iz i=1 niz 
conduc la concluzia că V e 12 (n —1,D, g.e.d. 


Teorema 8.3.0. Fie X =(X,,X2,....X,)o selecție obținută prin sondaj pur 


aleator, dintr-o populație normal distribuită, cu parametri pn şi 57. Atunci: 


dj bsi ed: 
O 


LU — UL .— 
= il) SĂ] ete-im 
i=l i=l 


le) 
Demonstraţie 
X — — i 
Notând Y; = ni Ala =1,n, rezultă căY; e N(0,1). Concluzia rezultă 
e] 


uşor, verificând condiţiile din teorema anterioară prin intermediul variabilelor 
ajutătoare abia introduse, g.e.d. 
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Capitolul 9 


Teoria estimaţiei 


9.1. Estimatori nedeplasaţi 


Să considerăm o variabilă aleatoare X a cărei lege de probabilitate conţine 
un parametru 6. Fie X,..., X, variabile aleatoare independente care au aceeaşi 
distribuţie ca şi X. 

Alegem o anumită funcţie 7(X,,..., X,) pe care o vom utiliza ca estimator 


al lui 0; cu alte cuvinte, dacă dispunem de valorile x,,...,x, obţinute 


n 


experimental, numărul £(x,, ..., x, ) va fi considerat ca estimator al parametrului 6, 


Definiţia 9.1.1. r(X,,..., X,) se numeşte estimator nedeplasat al parametrului 6 


dacă media lui (X | pile să =) este egală cu 0 pentru orice valoare posibilă a lui 0. 


Exemplul 9.1.2. Fie pu media lui X. Atunci 


l 

î(X .... îXi0) = zi (X, a piesa si X,) 

este un estimator nedeplasat al lui u, fiindcă în mod clar media variabilei 
aleatoare 


Rt +...+ X,) este egală cu E pu) = u. 
n n 


Exemplul 9.1.3. Fie u media lui X şi o” dispersia lui X. Pentru un n fixat, notăm 


Pe Ma aa atăt dl, 
n 


Am văzut în exemplul anterior că X este un estimator nedeplasat al mediei 
u. In calitate de estimator al dispersiei lui X putem alege pe 


s2 > Le. 
4) 


Un calcul algebric elementar ne convinge că media variabilei aleatoare S” 


este egală cu aa VE Aceasta arată că S$? nu este estimator nedeplasat; deducem 
Ei p 
n 


însă imediat că media lui 
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n 


este egală cu o? „ deci s? este estimator nedeplasat pentru dispersia o?. 


n-—l 
Cu alte cuvinte, dacă dispunem de valorile experimentale x,, ..., x, vom estima 


dispersia o? prin 


2 2 2 
n Xp - | 2) 


n-—l n n 


9.2. Estimatori de maximă verosimilitate 


Fie f(x; 0) densitatea de probabilitate a unei variabile aleatoare X, în care 
0 este parametrul care urmează să fie estimat. Să presupunem că avem la 
dispoziţie valorile experimentale (x, at, x) ale lui X, obţinute în urma unei 
selecţii de volum n. 


Definiţia 9.2.1. Funcția 
Les 2730) = f (n:0)-.f (0) 


se numeşte funcția de verosimilitate. 


Definiţia 9.2.2. Un estimator de maximă verosimilitate este un estimator care 
maximizează pe L ca funcţie de 8. 


Exemplul 9.2.3. Să considerăm densitatea exponențială 
Ge, x>0; 
AE Si [2) ze 2 > 
( 0 „ x<0. 


Funcţia de verosimilitate este 


L SR ez azi Ag: a E 9" Blitz) 


Derivata lui L ca funcţie de 0 este egală cu 


CI Pa Laiu n) (n — (0 + x,)0). 


Deducem imediat că L îşi atinge maximumul pentru 


n 
JE RE RI 
Sepi ast 3 


Aşadar, estimatorul de maximă verosimilitate al parametrului 0 din legea 
exponențială este 
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Exemplul 9.2.4. Să considerăm variabila X cu densitatea uniformă 


l 
9 E 0<x<0 ; 
f l«;6) = 
0) „ in rest. 
Ținând seama de natura acestei variabile, valorile experimentale (x, .... x, ) 


satisfac condiţia 0 < x; <0,i=1,...,n. 
Funcţia de verosimilitate este 


| 
La (Of a ;0) ua 
[214 
Valoarea ei este cu atât mai mare, cu cât 0 este mai mic. Datorită 
condiţiilor impuse, cea mai mică valoare posibilă a lui 0 este max x, ..., x, !- 


Prin urmare, estimatorul de maximă verosimilitate este max (X |, ..., X,). 


Exemplul 9.2.5. Să considerăm variabila aleatoare X cu densitatea 


(1+0)x?, O<xs<l; 
fil )= 


9) „ in rest. 
Funcția de verosimilitate este 
7 e DIR DEE RE N 
Derivata lui L ca funcție de 0 este egală cu 
(+0) a, (n 2 (040) înla.a,). 
Funcţia L îşi atinge maximumul pentru 


9 = = 088 
In x, + ...+ În x, 


deci estimatorul de maximă verosimilitate este în acest caz 
n 
l. 
In X, +...+ n ă, 


Exemplul 9.2.6. Fie X o variabilă normală cu densitatea 


to) ete 


Funcția de verosimilitate este 
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Pia Bl [= 0. oP2 | 


Se constată imediat că ea îşi atinge maximumul pentru 
za Xe Ft Xa 
n 


Deci, estimatorul de maximă verosimilitate este 
XX 


n 

Să observăm că 0 coincide cu media variabilei X, deci, estimatorul de 

maximă verosimilitate este tocmai estimatorul nedeplasat despre care a fost 
vorba în Exemplul 9. 1.2. 


Exemplul 9.2.7. Să considerăm o variabilă normală X cu densitatea 


l —x2./202 
0) =——— : 
f l«:8) aa 


Funcția de verosimilitate este acum 


aaa gli ulii pe beta raze? | 
Ea îşi atinge maximumul pentru 


0 = - (+2 Pad 2). 


n 


deci, estimatorul de maximă verosimilitate este în acest caz 


Lb ei a) 
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Capitolul 10 


Estimarea prin interval de încredere 


Introducere 


Estimaţia punctuală a unui parametru 0, necunoscut la nivelul unei 
populaţii, deşi constituie o informaţie în legătură cu acesta, nu poate fi utilizată 
fără a avea o imagine şi asupra mărimii probabilistice a erorii de estimare. Apare 
astfel necesitatea estimării unui parametru prin aşa numitul, interval de încredere. 
În capitolul de faţă vom prezenta forma generală a intervalului de încredere, 
expresia intervalului de încredere pentru medie inclusiv cazul particular al unei 
proporții, interval de încredere pentru diferența a două medii, interval de 
încredere pentru dispersie şi respectiv interval de încredere pentru raportul a 
două dispersii. Pe tot parcursul capitolului va fi prezentat doar cazul când 
eşantionul se formează pe baza unei selecții simple aleatoare formată prin 
extrageri independente. 


10.1. Forma generală a intervalului de încredere 


Fie o populaţie statistică A, variabila statistică X studiată prin intermediul 
unei selecții simple de volum n, formată prin extrageri independente, 
(X,, Xe: X,) şi un parametru necunoscut 0 asociat variabilei X, pentru care se 


obține pe baza selecţiei estimatorul 0(X,,X,.....X,), având densitatea de 
probabilitate / (2 ). 


Definiţia 10.1.1. Se numeşte interval de încredere pentru parametrul 
necunoscut 8, cu nivelul de semnificaţie a e (0,1), intervalul 


(n (8(x,.....X,)) m(0(r,...X,)) (10.1.1) 


susceptibil de a conţine valoarea lui O cu o probabilitate (1-a), unde 
h(0)= n (0(x,....X,)) şi h,(0)= n(8(x,.....X,)) rezultă din legea de 
probabilitate dată prin f (6 ). 
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După observarea statistică a eşantionului (selecţiei), cele două limite ale 
intervalului mai sus menţionat pot fi determinate numeric. Intervalul care 
încadrează parametrul 6 are proprietatea că acoperă valoarea 0 în 100(1 — a) din 
cazuri. Cu cât nivelul de semnificație a este mai mic cu atât 0 are şanse mai 
mari de a se afla în acel interval (de regulă a < 0,05). Probabilitatea 1-a este 


probabilitatea de garantare a intervalului, valorile acceptate fiind de regulă peste 
0,95. 


Observaţia 10.1.2. Obţinerea celor două limite ale intervalului se realizează 
pornind de la faptul că pentru 77 00, ORI? dă (sau pentru o altă variabilă 


aleatoare de lege de probabilitate cunoscută a cărei expresie îl conţine pe 0) se 
pot determina pe baza legii de probabilitate cunoscute, două valori particulare 
a, (0) şi a,(6) astfel încât să aibă loc relația: 


P(a,(0)<8 <a,(0))= | i, f(5)dă Aa, (10.1.2) 
formulă ce se poate scrie, prin artificii matematice, astfel: 


PU (DXX) < 0 < h(0(X = [- rad 1-a. (0.1.3) 


Observaţia 10.1.3. Dacă estimatorul 0 este un estimator centrat (nedeplasat), 
deci E(6 )= 0 intervalul de încredere este simetric în raport cu O, vom avea 
h, (6)= G-A0 şi h ()= 0+A0 unde AG reprezintă eroarea limită de 
estimare sub formă absolută. Astfel intervalul de încredere se poate scrie: 


P(O -A8 <0<0+A0) = [i Odo 1-a (10.1.4) 


unde AO este de obicei proporțională cu dispersia estimatorului, prin urmare se 
scrie de forma AO = z:03. 


Probabilitatea 1-a şi eroarea limită constituie împreună o măsură a 
preciziei estimării parametrului 6 prin 0 (x petag A i e De regulă acestea se 
fixează apriori, astfel: 

AO 
R Se a 005 ŞI a < 5%. (10.1.5) 


8 
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Pe baza acestor parametri ai peciziei va rezulta dimensiunea eşantionului prin 
care se asigură precizia dorită, folosind în acest scop formula A0 =z:0; în 
care se va vedea că dispersia estimatorului o; depinde şi de volumul n al 


selecției, iar z depinde de nivelul de semnificaţie stabilit şi de legea de 
probabilitate implicată. 


10.2. Interval de încredere pentru medie 


Vom considera în cele ce urmează, cazul când parametrul necunoscut 6 
pe care dorim să-l estimăm prin interval de încredere este media unei variabile 
aleatoare. 


Propoziția 10.2.1. Intervalul de încredere pentru media unei variabile X ce 
urmează legea normală N (4,0?) cu pe IR necunoscut şi o” >0 cunoscut 
O = oi 


este deforma (X -z „-- =,X+z ), cu 
L-> An -3 An 
= o = o 
PAZ pe SpA AZ pp) = (10.2.1) 
-> An L-> An 


XP A Poe e 


n 
eşantion obținut prin extrageri aleatoare independente, a e (0,1) este nivelul de 


n 


unde X = este media de selecţie corespunzătoare unui 


semnificație iar z „este cuantila de ordin 1— a repartiției normale standard 
1 


dată prin funcția de repartiție (funcția integrală Laplace - Gauss), 


Îi at 
p(x)=— [e 2adr. 
N2T ] 
Demonstraţie 
Întrucât _X e Nlu,o?), iar media de selecție este de forma 
pa CE sr bl ae Abel e sa 
n 


„ extragerile fiind independente, urmează că 


2 
XeN | u, =] şi mai departe, avem că variabila 
n 
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urmează legea normală standard (centrată şi redusă), N (0,1). În consecință, fiind 
dat un prag de semnificaţie a < 0,05, vom găsi două numere z, şi z, astfel 
încât: 
X — 
P(z, < Ea )= 
o 


EI 


Dale Zar hed-ma=i-a 


unde g este iehia de repartiție a legii normale standard, Laplace-Gauss, 


VI! x) - 2 [e 2 za, ale cărei valori sunt tabelate. Mai departe, prin artificii de 
calcul folosind probabilitatea unor evenimente echivalente, avem că: 
Es 
e ?dt=0(z,)-0(z,)=1-a. 


P(X —z,: <u<X-z; 


le) le) ji l f 
ln În N2z 
Pentru a fixat, se pot determina o infinitate de numere z, şi z,, astfel încât 
p(z,)—q(z,)=1-—a, însă pentru o precizie cât mai bună a intervalului de 


încredere, ne va interesa un interval de lungime minimă, ori acesta se obține 
pentru cazul când z, = —z,, prin urmare, avem 


PU ze i LX a 


Vn 


În acest caz z, se determină din relația (z,)-p(-z,)=l-a cu 


D - lie 3 înalt) alee) a. 


[94 


P(-z,)=1-0(z,), adică MHz) 1-2 ceea ce înseamnă că z, =z „ este 


S i a ba 
cunatila de ordin 1-— E a repartiției normale standard. 


Prin urmare, intervalul este dat prin formula 


=1-a.qed. 
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Observaţia  10.2.2. Valorile funcției de repartiție Laplace - Gauss, 
În E a 

p(x)= —— [e 2dr sunt tabelate, adică pentru probabilitatea auxiliară 1-—, 
N27 | 2 


vom găsi în tabel valoarea cuantilei z, = z ,„ însă există şi tabele, care prezintă 
pt 
2 


X LA 
valorile — funcției $(x)= [e 2dt, x>0, caz în care z, este 
0 


E NI Ca 
corespunzătoare valorii 


N) 
ș SI 

- E) 

a 


Observaţia 10.2.3. Folosind notația: AX = z „ se poate scrie intervalul 


pe 
2 Nn 
de încredere ca un caz particular al formulei (10.1.4), (X fiind estimator 
nedeplasat) şi anume: 


P(X —AX <u<ĂX+AX)=1l-a. 


Determinarea efectivă a celor două limite presupune cunoaşterea expresiei 
matematice a estimatorului X şi a erorii medii pătratice de estimare o =, fiecare 
variind de la un tip de sondaj la altul, aici fiind prezentat doar cazul unui sondaj 
aleator simplu cu extrageri independente. Cu cât lungimea AX a intervalul de 


încredere, respectiv nivelul de semnificație a sunt mai mici, cu atât estimația 
parametrului necunoscut este mai bună. 


Observaţia 10.2.4. Pentru selecții de volum mare, intervalul de încredere pentru 
medie, precizat în Propoziția 10.2.1 este valabilă şi pentru cazul în care 
variabila X urmează o lege oarecare de probabilitate, datorită Teoremei limită 
centrală. 


Exemplul 10.2.5. Să presupunem că dispunem de valorile unei variabile 
XeN (22), obținute printr-o selecție simplă cu extrageri independente, de 
volum 25 şi de medie x = 55, obiectivul fiind acela de a estima media la nivelul 
populaţiei, ui, necunoscută, printr-un interval de încredere de 95%. 


Soluţie 
Întrucât a = 0,05, obţinem din Anexa 1, z „ = 1.96 şi mai departe, 


2 
pentru 95% din cazuri, 


Sacou 20 cap iata 00 


2 
V25 25. 
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Prin urmare, în 95% din cazuri, intervalul (54,216 - 55,784) va acoperi valoarea 
necunoscută a parametrului pu . 


Propoziția 10.2.6. Intervalul de încredere de tip l-a, pentru media unei 
variabile X ce urmează legea normală N(u,o? ) cu uelIR necunoscut şi 


o” > 0 necunoscut este de forma (X —t 5 E . pi „cu 
n-l, I-> n n-l ip: An 
PX cuie Ft i (10.2.2) 
n-l, i An n, i An iati 


sk pi Pediz Piu AC 
n 
eşantion obținut prin extrageri aleatoare independente, 
E A e) (să sat (0020 
pl 
07, a e(0,1) este nivelul de semnificaţie iar t „a este cuantila de ordin 


unde X 


"este media de selecţie corespunzătoare unui 


este estimaţia absolut corectă a lui 


a 
n-L,l-— 
2 


1— = a repartiției Student cu n-1 grade de libertate. 


Demonstraţie 
Conform legilor de probabilitate ale variabilelor de eşantionare, atunci 


când x e Ni (4.0?) „ variabila 7 = dim urmează legea Student cu n-/ grade de 


ln 
libertate, întrucât se obţine ca raport între două variabile independente, o 
variabilă ce urmează legea normală standard şi radicalul unei alte variabile de tip 
x” raportată la numărul gradelor de libertate. Procedând ca în cazul când o” 
este cunoscut se obține intervalul de încredere corespunzător. g.e.d. 


Exemplul 10.2.7. Să considerăm estimarea printr-un interval de încredere de 
tip 98%, a notei medii de repartiție normală, pornind de la următoarele date: 5, 
10, 7,6, 9,8. 


Soluţie 
Întrucât a = 0,02, n =6, obţinem din Anexa 2, 1 „= 3,365. Pe baza 


n-—,l-— 
2 


selecției avem X = 7,5, s = 1,87 şi mai departe, în 98% din cazuri, 
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1,87 1,87 


NC NC 


Prin urmare, în 98% din cazuri, intervalul (4,93 - 10) va acoperi valoarea 
necunoscută a parametrului u . 


7,5 — 3,365. < u<7,5+ 3,365: 


Observaţia 10.2.8. Pentru selecții de volum mare, diferența între valorile 
cuantilelor repartiţiei Student şi cele ale repartiției normale standard este 
neglijabilă. De asemenea este neglijabilă şi diferența dintre estimatorul absolut 
ir VĂ Sb ZP 
XX] +=] rr, AX 

corect s? _l l ) ( = ( ” ) şi estimatorul 

N — 
EV) ab EV) 
Sa rea) [AC 00 e ei D070) 

n 
formula (10.2.1) cu o? înlocuit de u,. 


W „ prin urmare, se poate utiliza 


Propoziția 10.2.9. Pentru selecții de volum mare, intervalul de încredere de tip 
l-a, pentru media unei variabile X ce urmează legea Bernoulli de parametru 
necunsocut p este de forma 


BD) Bd) 
(5-z p+z ) (10.2.3) 
ZI n 125; În 


A mt As a 5 


n 
eşantion obținut prin extrageri aleatoare independente, a e (0,1) este nivelul de 


unde p = este media de selecţie corespunzătoare unui 


semnificaţie iar z „este cuantila de ordin 1-— Zi. a repartiţiei normale standard. 
= 
2 


Demonstraţie 
Media unei variabile aleatoare ce urmează legea Bernoulli de parametru 
necunoscut p, are pentru selecţii de volum mare, conform Observaţiei 10.2.4, o 
repartiție aproximativ normală cu media egală cu p şi abaterea medie pătratică 
PU-> 
n 


aproximativ egală cu „ prin urmare aplicând Propoziția 10.2.1 se 


obține intervalul dorit. g.e.d. 


O astfel de medie exprimă de fapt proporția p de indivizi dintr-o 
populaţie care au o anumită caracteristică şi este tratată ca media unei variabile X 
cu valorile 0 şi 1, prin valoarea 1 notând valoarea variabilei X pentru indivizii 
care au această caracteristică. 
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Exemplul 10.2.10. La un sondaj electoral, 40 din 100 de persoane chestionate s- 
au pronunţat în favoarea unui candidat, scopul fiind determinarea unui interval 
de încredere de tip 95% pentru procentul de alegători favorabil acelui candidat. 


iălud a 
95% cazuri intervalul 


SA „4 | 4. 
1,96 ep gr L96 a La adică  (0,304- 0,496), prin 


urmare în 95% din cazuri, ei) favorabil candidatului va fi aproximativ 
între 30% şi 50%. 


10.3. Interval de încredere pentru diferența a două medii 


Vom considera în cele ce urmează problema determinării intervalelor de 
încredere pentru diferența a două medii, utilă în cazul în care dorim să avem o 
informaţie privind diferența de comportament a unei variabile, de la o populaţie 
la alta. 


Propoziția 10.3.1. Fie două populații studiate în raport cu variabila X, pentru 
prima populație variabila fiind de tipul N (4,02) iar pentru a doua, de tipul 
2 . 2 2 3 
N (o, ) CU pi, necunoscute, respectiv 0, ,0, cunoscute. Fie de 
asemenea două selecţii bazate pe extrageri independente de volume n, şi 
respectiv n,, din cele două populaţii, cu mediile de selecție X,, X, . Pentru un 
nivel de semnificaţie, a e (0,1), intervalul de încredere pentru diferența celor 
două medii este de forma 


2 2 2 2 
X-X,-z a e jap 00 30 biz aa E 2 410 83 
a Vi m m m 


i : a PRE 
unde z „este cuantila de ordin l— Zi a repartiției normale standard. 
Sica 


Demonstraţie ENI 
ă, -X.)-lu —u2) 


O, 0» 


Variabila aleatoare Z = urmează legea normală 


LII (2) 


standard. g.e.d. 


Exemplul 10.3.2. Vom determina intervalul de încredere de tip 95% pentru 
diferența mediilor unei variabile în două populaţii diferite în care se presupune 
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că repartiţiile variabilei sunt normale, de medii necunoscute pu, respectiv uşi 
. PA 2 2 2 2 “ tă 
dispersii cunoscute o, =2",0, =3", pornind de la selecțiile de volum n, ="7 


şi respectiv n, = 8, de medie, X, = 22 şi respectiv, X, = 20. 


Soluţie_ 
În 95% din cazuri intervalul va fi 


4 9 4.9 
99:2500)21:06, | ata < (22—20)+196..]-+2|. 
[ ) = sii il ( ) 3 : 


Propoziția 10.3.3. Fie două populații studiate în raport cu variabila X, pentru 
prima populație variabila fiind de tipul N (4,02) iar pentru a doua, de tipul 
N (4.03), CU p[i, necunoscute, respectiv 0,0, necunoscute dar egale. 
Fie de asemenea două selecţii bazate pe extrageri independente de volume n, şi 


respectiv n,, din cele două populaţii cu mediile de selecţie XX, şi estimatorii 


. . . .. 2 2 B . . 
absolut corecţi ai dispersiilor, s, „s, . Pentru un nivel de semnificaţie, 
a e (0,1), intervalul de încredere pentru diferența celor două medii este de 


forma 


Cip e vaza Tail = o ji d 
Ai hate ip alb Silbe —pb Cde Aa Pi a Sa > A L0I32) 
rl-3 HN Hp ri-3 n H 


, , a iza 
unde t „este cuantila de ordin l|—-—a repartiţiei Student cu A =n, +n, —2 


je 
pp 


(n, 1, + (n 153 


grade de libertate iar S? = 


n +n,—2 
Demonstraţie 
îi XX, )-l(u 
Variabila aleatoare 7 = ( l ) (Hu =) urmează legea Student cu 
l 
i | 
LU IL) 


n, +n, —2 grade de libertate. g.e.d. 
Exemplul 10.3.4. În vederea comparării comportamentului unei variabile în 


două populaţii normale, având aceeaşi dispersie, se pune problema determinării 
unui interval de încredere de tip 95% pentru diferența mediilor variabilei în cele 
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două populaţii, pornind de la două seturi de date de volum 10 şi 12 cu mediile 
X, = 25 şi X, = 2, respectiv s,- =0,2 şi s,- =0,22. 


Soluţie_ 
În 95% din cazuri intervalul va fi 


N 1 N 1 
23 2)>t e Sa ee pi ei, (05 =2)>1 Sale 
[ ps Ta ta aaa Da 10 3] 


(10 —1)-0,2 + (12 —1)-0,22 
10+12—2 


cu î 4 tao = 2,086 şi s? = 


„2 
la 


Propoziția 10.3.5. Fie două populații studiate în raport cu variabila X, pentru 
prima populaţie variabila fiind de tipul N (no) iar pentru a doua, de tipul 
2 5 2 2 A 3 3 
N (u„.o; ) CU Hp, necunoscute, respectiv O, ,0, necunoscute şi diferite. 
Fie de asemenea două selecții bazate pe extrageri independente de volume n, şi 
respectiv n,, din cele două populaţii cu mediile de selecţie XX, şi estimatorii 
absolut corecţi ai dispersiilor, a, Pentru un nivel de semnificaţie, 
a e (0,1), intervalul de încredere pentru diferența celor două medii este de 


forma 


2, 2 2 2, 
= Ea pre e NI IRE 
XX a < up CĂ Xe por = (0.3.3) 
fl n, n Hal n, n» 


: : a Area 
unde t „este cuantila de ordin la repartiției Student cu y grade de 
Y 


i) 


, l c) 
libertate unde — = a A E PE 
00 (m INN SI, Sa 


Demonstraţie 
eee X, -X,)-lu — i 
Variabila aleatoare 7 = ( ! ) lu, H2) urmează legea Student cu 
Sia 0 
Hy Ho 


y grade de libertate. g.e.d. 
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Exemplul 10.3.6. În vederea comparării comportamentului unei variabile în 
două populaţii normale, având dispersii diferite, se pune problema determinării 
unui interval de încredere de tip 95% pentru diferența mediilor variabilei în cele 
două populații, pornind de la două seturi de date de volum 10 şi 12 cu mediile 


X, = 2,5 şi X, = 2, respectiv si = 0,2 şi s = 0,22. 


Soluție_ 
În 95% din cazuri intervalul va fi 


[0,2 0,22 02 022 
2,5—2)—1 par < <(2,5—-2)-t Sl +——|, 
[ ae Ney, ua Mee Mansi 0 E ca i) 


cu £ „ determinat din Anexa 2, pentru 27 = 0,975 şi y determinat din 


rl-> 
0,2 
„1 _c2 (I=cP 9 
laţia —=-—+4 =. 
SA, g EI cu c 02, 022 
9 Il 


Observaţia 10.3.7. Dacă volumul selecțiilor este mare, se poate considera că 
variabilele aleatoare utilizate în Propoziția 10.3.3 şi Propoziția 10.3.5 au 


repartiția normală, folosindu-se astfel formula (10.3.1) în care 0,.,0, se 


estimează prin momentele centrate de ordin 2, corespunzătoare celor două 
selecții. De asemenea, pentru selecţii mari, formula (10.3. 1) se poate utiliza şi 
pentru populaţii în care repartiția variabilei nu este normală. 


10.4. Interval de încredere pentru dispersie şi raportul a două 
dispersii 


Un alt parametru care se poate estima prin interval de încredere este 
dispersia (varianţa) unei variabile. De asemenea, după cum s-a putut observa în 
paragraful anterior, pentru a obţine estimaţii privind diferența a două medii este 
util să avem informaţii despre raportul dintre dispersiile corespunzătoare, atunci 
când ele nu se cunosc, aspecte ce vor fi prezentate în acest paragraf. 


Propoziția 10.4.1. Intervalul de încredere de tip 1-a, pentru dispersia unei 
variabile X ce urmează legea normală Nlu,o?) cu uelIR necunoscut şi 


2 
O“ > 0 necunoscut este de forma 
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(10.4.1) 


unde 


1 A (2 e) ae 0 07) fa a zor). 


este estimația absolut corectă a lui o” pentru o selecţie de volum n, bazată pe 
extrageri independente, a e (0,1) este nivelul de semnificaţie iar x? şi 
n—L,l-— 
2 


i , e AR e sea 
x? „ sunt cuantilele de ordin i şi 3; ale repartiției x? cu n-l grade de 


2 
libertate. 


Demonstraţie 
Intrucât, conform legilor de probabilitate ale variabilelor de eşantionare, 
cum o sumă de pătrate de n variabile aleatoare independente, de medie 0 şi 
repartiție normală are o repartiție de tip 7? cu n-1 grade de libertate, avem că 
(n—1)-s? 
2 
[o 


variabila X? = urmează legea /? cu n-1 grade de libertate, prin 


urmare pentru un nivel de semnificaţie a , găsim două numere 4; şi 42, astfel 
2 2 


cn IC 


n-L3 n-—1,l-— 
2 2 


încât Plz? eX e 2)= l-a. Dacă alegem x, = 


cuantilele de ordin se, Şi E ale repartiţiei 7? cu n-l grade de libertate, 


i n—1)-s? : e a, îi 
obținem 7? |, ps x? 4, de unde prin artificii de calcul, rezultă 
2 


n-—l,— n-—,l-— 
Fi O 


intervalul dorit. g.e.d. 


Exemplul 10.4.2. În vederea estimării variabilității unui instrument de 
măsurare, se pune problema determinării unui interval de încredere de tip 98% 


2 A ci Ş ie: i 

pentru O“ pornind de la 5 măsurători independente presupuse ca fiind extrase 
Ș E iz 2 

dintr-o repartiție normală, pentru care s-a calculat s* = 2. 
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Soluţie 

<0î<——, 
A 40.99 Xaoo 

Xioow = 13,28 şi Xaoo = 0,297 rezultă din Anexa 3, cu valorile tabelate ale legii 


2 


X. 


În 98% din cazuri intervalul va fi unde 


Propoziția 10.4.3. Fie două populații studiate în raport cu variabila X, pentru 
prima populație variabila fiind de tipul N (4,02) iar pentru a doua, de tipul 
2 - SĂ 2 Și 

N (no; ) CU Hi4, necunoscute, respectiv O, ,0, necunoscute. Fie de 
asemenea două selecţii bazate pe extrageri independente de volume n, şi 
respectiv n,, din cele două populaţii cu mediile de selecţie XX, şi estimatorii 
absolut corecţi ai dispersiilor, CA Pta Pentru un nivel de semnificaţie, 
a e (0,1), intervalul de încredere pentru raportul celor două dispersii va fi 


l gi Di l SN 
1 1 1 
ae na (10.4.2) 
lina Z za nn 2 
: : : a. a 
unde f PD A „ Sunt cuantilele de ordin 1l-— şi — ale 
m-a ll ma > 2 2 


repartiției Fisher-Snedecor cu n, —lşi n, —l grade de libertate. 


Demonstraţie 


Cum raportul a două variabile de tip 7? este o variabilă de tip Fisher, 


2 
a d 


avem că variabila F = urmează legea Fisher cu n, —lşi n, —l grade de 


libertate şi raționaând ca în propoziția anterioară, se obține intervalul dorit. g.e.d. 


Exemplul 10.4.4. În vederea comparării comportamentului unei variabile în 
două populaţii normale, se pune mai întâi problema determinării unui interval 
de încredere de tip 95% pentru raportul dispersiilor în cele două populații, 
pornind de la două seturi de date fiecare de volum 10 şi 12 cu 


8 =0,2 şi s,- =0,22. 
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Soluţie 
0,2 40 1 02 
4 < 5 < 4 , 
Jo sus 0,22 0, Jou.o.25 0,22 


În 95% din cazuri intervalul este 


CU foui.097s = 3;59 determinat din Anexa 4, cu valorile tabelate ale legii Fisher 


A ] 
ŞI o auo:05 = ————— = 0,278. 


o 105915 
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Capitolul 11 


Teoria deciziei 


11.1. Decizii „empirice” 


În viaţa de zi cu zi suntem nevoiţi să luăm decizii — importante sau mai puţin 
importante, la fiecare pas. Când traversăm strada printr-un loc nepermis, culegem în 
mod empiric câteva informaţii (distanța până la cel mai apropiat vehicul, viteza cu 
care se apropie de noi, etc.), apoi luăm decizia de a traversa. De fiecare dată ne 
asumăm riscul ca decizia să fie greşită, şi uneori, decizia chiar este greşită. 


11.2. Decizii statistice 


Firma de automobile F trebuie să cumpere o mare cantitate de anvelope şi 
are de ales între mărcile A1 şi A2. Înainte de a lua o decizie, firma testează n 
anvelope de tip Al şi n anvelope de tip A2. Având la dispoziţie măsurătorile care 
rezultă în urma testărilor, firma decide că anvelopele A1 sunt superioare. Această 
decizie se bazează pe testarea unui număr n de anvelope, care — prin forța 
lucrurilor — este mic în raport cu numărul mare de anvelope care vor fi 
cumpărate. Prin urmare, există riscul ca decizia să fie greşită. 


Poate fi „măsurat” acest risc? 


Triumful teoriei statistice a deciziilor constă tocmai în posibilitatea de a 
măsura gradul de risc în termenii unor probabilităţi obiective. Prelucrând statistic 
rezultatele numerice ale măsurătorilor, statisticienii firmei F pot comunica 
managerului că probabilitatea ca decizia să fie greşită este mai mică decât, să zicem, 
0.05. Tinând seama de toți factorii implicaţi, managerul poate decide că riscul este 
acceptabil. Dacă probabilitatea ca decizia să fie greşită este prea mare, managerul 
poate cere teste suplimentare, sau poate lua în considerare parametrii suplimentari. 

Când decidem să traversăm strada printr-un loc nepermis, actionăm pe baza 
unor probabilități subiective, şi deci gradul de risc este apreciat în mod subiectiv. 

Când avem la dispoziţie rezultatele numerice ale unor experimente, teoria 
statistică a deciziilor ne permite să măsuram gradul de risc asociat unei decizii în 
termenii unor probabilități obiective. 
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În cele ce urmează, vom prezenta anumite metode de a calcula astfel de 
probabilități obiective şi — implicit — de a aprecia gradul de risc asociat unei 
decizii. Metode de acest tip vor fi aplicate la testarea şirurilor binare cu scopul de 
a decide dacă sunt aleatoare. 


11.3. Ipoteze statistice 


Într-o accepţiune largă, prin ipoteză statistică înțelegem o ipoteză asupra 
unui fenomen aleator. Putem formula, de exemplu, ipoteza asupra naturii 
distribuţiei unei variabile aleatoare: normală, binomială, Poisson etc. Sau, dacă 
natura distribuţiei este precizată, putem formula ipoteze asupra valorilor 
numerice ale parametrilor care intervin în structura legii respective de 
probabilitate. 

Ipoteza care urmează să fie testată se notează cu Ho. Este necesar să 
formulăm şi ipoteză alternativă, notată cu Hi. 

Dacă, de exemplu, Hy este ipoteza că un anumit parametru p, are o valoare 
numerică po, atunci H, poate fi ipoteza că p are o alta valoare numerică pu. Alt 
exemplu ar putea fi ipoteza Hi: pZpi; cu alte cuvinte, Hu, poate fi pur şi simplu 
ipoteza că Hy este falsă. 

Un test statistic are menirea de a recomanda acceptarea ipotezei Ho (şi deci 
respingerea lui H.) sau respingerea lui Ho (şi deci acceptarea lui H.). 


11.4. Teste statistice 


Un test statistic se bazează pe un experiment în urma căruia, sub ipoteza 
Ho, putem deduce valoarea numerică a unei statistici X. În spaţiul valorilor pe 
care le poate lua X vom izola o submulțime numită zona critică a testului. Dacă 
valoarea numerică a lui X furnizată de experiment aparține zonei critice, vom 
decide că respingem ipoteza Ho şi acceptăm ipoteza Ha; în caz contrar, acceptăm 
Ho şi respinge Ha. 

Întrucât rezultatul experimentului este influenţat de factori aleatori, decizia 
noastră nu este infailibilă: ea poate fi eronată. 


11.5. Tipuri de erori 


Să presupunem că Hy este adevărată, dar că — în ciuda acestui fapt — 
datorită factorilor aleatori, valoarea lui X obţinută în urma experimentului 
aparține zonei critice. Noi vom decide să respingem ipoteza Hy, dar această 
decizie va fi evident greşită. În acest caz se spune ca am comis o eroare de tip 1. 
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Cealaltă eroare posibilă este de a accepta ipoteza Ho când în realitate ea 
este falsă; aceasta se întâmplă când, deşi Hy este falsă, valoarea lui X în urma 
experimentului se plasează în afara zonei critice. În acest caz avem de a face cu o 
eroare de tip II. 


11.6. Nivel de semnificaţie 


Probabilitatea de a comite o eroare de tip I se notează cu a şi se numește 
nivel de semnificaţie al testului. Dacă, de exemplu, u=0.05 şi aplicăm testul de 
1000 de ori, în aproximativ 50 de cazuri vom respinge în mod eronat ipoteza Ho . 

Probabilitatea de a comite o eroare de tip II se notează cu fi. 

Desigur că dorim să proiectăm teste pentru care probabilitățile de eroare a 
şi B să fie mici. În anumite situaţii, se caută minimizarea sumei a + fi. În alte 
cazuri se fixează nivelul de semnificaţie a şi se caută testul pentru care p să fie 
minimă. În cazuri complexe — printre care şi testarea şirurilor binare — calculul 
lui fi este dificil sau chiar imposibil, aşa că se fixează doar nivelul de 
semnificaţie a. 

Aceste consideraţii sunt exemplificate în următorul exemplu. 

Considerăm o anumită distribuție de probabilitate a cărei formă o 
cunoaştem, dar în structura căreia intra un parametru necunoscut 6. 


Fie Hy : 0= 0, şi fie K zona critică a testului. Avem 


a = P(xe K|Hy este adevarata) = P(xe K|0=69) 
Întrucât distribuţia de probabilitate este complet specificată, probabilitatea 
de mai sus poate fi calculată. 
i. Fie H, : 0= 0,. 


Atunci 
B = Plx £ K |IHlg este falsa) = P(xe K |H, este adevarata) = P(xe K|8 = 6,) 


Din nou distribuția de probabilitate este complet specificată, deci 
probabilitatea p poate fi şi ea calculată. 


il. Fie H,: 07 00. Acum 
B =PlxeK|0 70). 
De data aceasta, parametrul 0 nu mai este specificat, deci calculul lui fi este 
dificil sau chiar imposibil. 
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11.7. Un exemplu 


Notăm cu X timpul dintre două semnalizări succesive ale unui contor 
Geiger. Din studiul dezintegrării radioactive se ştie că variabila aleatoare X are 


densitatea exponențială: 
-0t 
e “„1>0 
f= | 


O , in rest. 


unde 6 este un parametru care depinde de natura materialului radioactiv. 

Un fizician doreşte să testeze valoarea lui 0 pentru un anumit material 
radioactiv. 

Din anumite considerente teoretice sau experimentale, el ştie că 0 poate lua 
fie valoarea 1, fie valoarea 2; intuiţia fizicianului favorizează valoarea 2. 

Aşadar se testează ipoteza: 

Hy9:0 = 2 
în prezența ipotezei alternative: 
H:0 =. 

Pentru simplitatea exprimării, vom presupune că se face o singură 
observaţie asupra variabilei X, cu alte cuvinte, se măsoară lungimea unui singur 
interval de timp dintre două scintilaţii consecutive ale contorului Geiger; desigur 
că în practică testarea se va baza pe mai multe astfel de observaţii. 

Notăm cu x valoarea măsurată a lui X. Alegem drept zonă critică a testului 
intervalul (1, +00). Aceasta înseamnă că: 


Dacă x > 1, vom respinge ipoteza Ho şi vom accepta ipoteza H;; 
Dacă 0<x< 1, vom accepta ipoteza Ho şi vom respinge ipoteza Hi. 

Să calculăm nivelul de semnificație al testului. Avem 

a = P(x >1|Hg adevarata) = P(x >1|0=2). 
Pentru 0=2, densitatea de probabilitate este 
fl) = 2e %,1 >0 
şi deci 
a = |, fina =2 |, edr = 0.13. 

Aşadar, probabilitatea de a comite o eroare de tipul I (i.e., de a respinge în 

mod eronat ipoteza Hy) este egală cu 0.13. 


Să calculăm acum probabilitatea de a comite o eroare de tipul II (adică de a 
accepta eronat ipoteza Hy, ceca ce este totuna cu a respinge eronat ipoteza H, ). 


a = P(0O<x<1|H, adevarata) = P(0<x<1|0=1). 
Pentru 0=1, densitatea de probabilitate este 
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şi atunci avem 
pi 


p= e-tât = 0.63. 
Le] 


Desigur, probabilitatea unei erori de tipul II este mare, dar aceasta se 
explică prin faptul că testul nostru se bazează pe o singura observație. 
Este utilă o interpretare geometrică a faptelor de mai sus. 


Pentru 0=2, graficul densității de probabilitate este schiţat în figura de mai jos. 


Oy 


1 Ox 


Zona critică este intervalul (1, +00) de pe axa Ox. Probabilitatea ca 
observaţia x să aparțină zonei critice este egală cu aria suprafeței delimitate de 
grafic şi axa (x deasupra zonei critice. Nivelul de semnificaţie a este egal cu 
această arie. 

Pentru 0=1 avem graficul de mai jos: 
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Oy 


1 Ox 


Zona necritică este intervalul (0,1], iar probabilitatea p este egală cu aria 
delimitată de grafic şi axa Ox deasupra zonei necritice. 

Să construim acum alt test, cu acelaşi nivel de semnificație, dar în care 
regiunea critică să fie un interval de forma (0,a). Aceasta înseamnă să 
determinăm numărul a>0 astfel încât 


P(0<x<a]0=2)= 0.13. 
Condiţia de mai sus se transcrie în forma echivalentă: 
PE 
2] e” dt = 0.13 
1] 
de unde se poate deduce a=0.07. 
In aceste condiţii, probabilitatea unei erori de tipul II va fi 


B = P(x >al0 =1)= e ar= 0.93. 


Constatăm acum că probabilitatea p este mai mare decât în situația precedentă, 
prin urmare, testul anterior, bazat pe zona critică (1, +0), este superior. 
Interpretarea geometrică în cazul al doilea se deduce din următoarele grafice. 


Oy | 
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Nivelul de semnificaţie a este egal cu aria suprafeţei situate deasupra zonei 
critice (0,0.07) . Graficul corespunde valorii 0=2. 


Oy 


0.07 1 Ox 


Probabilitatea B este egală cu aria suprafeţei situate deasupra zonei necritice 
(0.07, +00) . Graficul este trasat pentru valoarea 0=1. 


11.8. Relaţia dintre probabilitățile a şi P 


În fiecare situaţie concretă este important să ştim care dintre cele două 
erori posibile ar produce cele mai mari prejudicii, şi să minimalizăm 
probabilitatea de a comite acea eroare. Intuitiv este clar că dacă se micşorează 
valoarea lui a, va creşte valoarea lui B, şi invers. Acest fapt poate fi ilustrat 
geometric în condiţiile exemplului din secțiunea anterioară. 

Să reluăm ipotezele: 

H9:0 =2; 
H:0 =. 
referitoare la parametrul O din densitatea de probabilitate 


Ge t'.1>0 
7) = i 
0 ie 


Alegem drept zona critică a testului un interval de forma (6, +2),unde c > 0, 
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Oy 


c Ox 


În această figură este trasat graficul densității pentru 0=2. Nivelul de 
semnificaţie a coincide cu aria de sub grafic, la dreapta lui c. 


Oy 


Pentru 0=1, graficul densității de probabilitate este trasat în figura de mai 
sus; probabilitatea p coincide cu aria suprafeţei de sub grafic, la stânga lui c. 

Este clar că alegerea lui c determină valorile lui a şi fi. A micşora pe a 
înseamnă a muta punctul c spre dreapta; evident că aşa îl vom mări pe f. Invers, 
a-l micşora pe fi înseamnă a muta punctul e spre stânga, ceea ce îl măreşte pe a. 

O practică des întâlnită în situaţii concrete este aceea de a fixa un anumit nivel 
de semnificaţie ( de obicei a= 0.05, sau a= 0.01, a= 0.001); apoi, dintre testele cu acest 
nivel a se caută unul pentru care B să fie cât mai mic cu putinţă. Intuitiv este clar că 
dacă numărul de observaţii pe care se bazează testul creşte, atunci f scade; însă un 
număr sporit de observaţii poate angaja costuri suplimentare considerabile. 


11.9. Puterea unui test 


Să considerăm din nou densitatea de probabilitate 


Ge t',+>0 
î) = 
dă ie 
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Vom testa ipoteza 
H9:0 = 2 3 


în prezenta ipotezei alternative 
H:0 < 2. 

care va înlocui ipoteza alternativă 0=1 considerată anterior. Considerăm drept zonă 
critică intervalul (1, +02), ceea ce înseamnă ca nivelul de semnificaţie este u=0.13. 

De data aceasta, ipoteza alternativă H, nu mai specifică o valoare cunoscută 
a lui 0, aşa încât nu mai putem indica o valoare numerică a probabilității f; 
putem însă determina expresia lui fi ca funcție de variabila 0 e (0, 2). 

Într-adevăr B(6) este probabilitatea ca * să aparțină zonei necritice când 
valoarea parametrului este 0 


B(6)= |oea = et | = 1-2. 


Aşadar, probabilitatea ca noi să acceptăm în mod eronat ca valoare a 
parametrului numărul 2, când adevărata valoare este 6, va fi egală cu 1 — adi 

În general, funcţia p(0)= 1- B(0) se numeşte funcția de putere a testului, 
sau puterea testului. Această funcţie descrie probabilitatea ca testul să respingă 
ipoteza Ho atunci când ea este eronată. 

În cazul exemplului de mai sus avem: 


P(0) =1- e? ; graficul acestei funcţii este schițat mai jos. 


Pentru fiecare valoare 0 a parametrului, funcția de putere P(0) descrie 
probabilitatea ca x să aparţină zonei critice; în particular, P(2) = 0.13. 

Dacă 6 = 1, valoarea eronată 2 este respinsă cu probabilitatea 0.37, iar dacă 
0 =0.5, aceeaşi valoare eronată 2 este respinsă cu probabilitate 0.61. 
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11.10. Încă un exemplu 


Ni se dă o monedă şi ni se cere să decidem dacă este sau nu trucată. Avem 
de testat ipoteza 
Hy : moneda nu este trucată 
în prezența ipotezei alternative 
H, : moneda este trucată 
Astfel formulate, ipotezele Ho şi Ha sunt de natură calitativă; le putem 
transcrie sub o formă cantitativă, numerică, dacă notăm cu p probabilitatea de a 
obține fața A la o aruncare a monedei ( şi deci q = 1 - p va fi probabilitatea de a 
obține fața B). 
Atunci putem scrie: 


H, -p == 
Testul va consta din a arunca moneda de 100 de ori. Să notăm prin X 


numărul de apariţii ale feţei A în cele 100 de aruncări. Sub ipoteza Ho, X este o 
variabilă aleatoare repartizată binomial cu parametrii n = 100 şi p= 2 Media lui 


X va fi np = 50, iar dispersia npq = 25. 

Aproximând distribuţia binomială printr-o distribuţie normală cu media 50 
şi dispersia 25, densitatea lui X va fi aproximativ cea schițată in figura 
următoare. 


35 40 45 50 55 60 65 


Vom determina zona critică în aşa fel încât nivelul de semnificaţie să fie 
0.05. Folosind tabele pentru legea normală deducem 


P(40 = x = 60) = 0.95 
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Înseamnă că zona necritică va fi intervalul [40,60], iar cea critică exteriorul 
acestui interval. 
Aşadar testul nostru poate fi rezumat astfel: 
1. Dacă fața A apare de un număr de ori mai mic decât 40 sau mai mare 
decât 60, moneda este trucată. Probabilitatea ca această concluzie să 
fie greşită este mai mică decât 0.05. 
2. Dacă faţa A apare de un număr de ori cuprins între 40 şi 60, nu există 
suspiciuni (la nivelul de semnificație 0.05) că moneda ar fi trucată. 
Să presupunem acum că în realitate p = 0.7, dar noi nu ştim asta. Atunci 
distribuţia reală a lui X va fi aproximativ normală cu media 70 şi dispersia 21. 
Atunci probabilitatea B pentru testul nostru va fi 


8 = P(40 <x<60|lp =0.7)= 002 
Folosind funcția de putere, avem 
P(0.7) = 1 — 8(0.7) = 098 
Alte valori ale funcţiei de putere, calculate în mod similar, sunt 
P(0.2) = P(08)= 1 
P(0.3) = P(0.7) = 0.98 
P(0.4) = P(0,6) = 0.5 
Cu alte cuvinte, dacă p=0.3 testul nostru va respinge ipoteza greşită p=0.5 cu 
probabilitatea 0.98. 


11.11. Testarea şirurilor binare 


Avem în vedere şiruri finite (numite şi secvenţe) formate cu simbolurile O 
şi 1. Un astfel de şir aleator poate fi interpretat ca rezultat al aruncărilor unei 
monede netrucate având fețele notate cu 0 şi 1. Aruncările sunt independente 
unele de altele şi rezultatele aruncărilor până la un anumit moment nu 
influențează în nici un fel rezultatele aruncărilor viitoare. 

Acest experiment ideal este neconvenabil pentru scopuri practice. În 
practică şirurile binare sunt produse de generatoare, şi ele urmează să fie testate 
din punct de vedere al caracterului aleator. 


11.12. Testarea statistică a şirurilor binare 


Să considerăm un şir binar care urmează să fie testat. Vom formula ipoteza 
Hy : şirul dat este aleator 
şi ipoteza alternativă 
H, : şirul dat nu este aleator. 
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Alegem un nivel de semnificație a, adică probabilitatea de a comite o 
eroare de tip I. O valoare mare a lui a indică un risc mare ca testul să respingă 
ipoteza Hy când ea este în realitate adevărată; cu alte cuvinte, un risc mare ca 
testul să declare drept nealeatoare şiruri care au fost produse în mod aleator. 

O eroare de tip II înseamnă în cazul de față să acceptăm drept aleator un şir 
produs de un generator imperfect. Probabilitatea fi de a comite o astfel de eroare 
depinde de natura imperfecţiunii generatorului, şi este dificil de estimat în 
practică. În mod curent se consideră că o valoare prea mică a lui o măreşte riscul 
unei erori de tip II, cu alte cuvinte măreşte riscul de a accepta drept aleatoare 
şiruri produse de un generator imperfect. 

Este deci important să alegem nivelul de semnificaţie a adecvat problemei 
concrete pe care o avem de rezolvat. În practică se foloseşte un nivel de 
semnificaţie a cuprins între 0.001 şi 0.05; se alege de multe ori a= 0.01. 

Fiecare test se bazează pe o statistică X a cărei valoare numerică se 
calculează pornind de la şirul considerat. De obicei se aleg statistici care pot fi 
calculate în mod eficient şi care urmează o lege normală sau 77. 

Valoarea x a statisticii X pentru şirul dat se compară cu valoarea aşteptată 
de la un şir aleator. 

a. Să presupunem că statistica X cu care lucrăm este distribuită N(0,1), şi că 
ia fie valori foarte mici, fie valori foarte mari pentru şirurile nealeatoare. 

Folosind tabele pentru legea normală fixăm un prag Xa astfel încât 


P(X > x) = P(X c —xa) => 


Zona critică a testului va fi (—00,—xg )U(rp,+ 00). Dacă valoarea x a 


lui X, calculată pentru şirul considerat, aparține zonei critice, şirul este 
considerat nealeator; cu alte cuvinte, ipoteza Ho este respinsă la nivelul de 
semnificație a. 

Dacă x € |—ăa,%a ], com accepta ipoteza Hy; nu sunt suspiciuni (la 

nivel de semnificaţie a) că şirul ar fi produs de un generator imperfect. 

De exemplu, dacă u=0.05, atunci Xa = 1.96; probabilitatea ca un [ir 

aleator să fie respins ca nealeator este de 0.05. 

b. Să presupunem acum că statistica X este distribuită g2cu vy grade de 
libertate, şi că ia valori foarte mari pentru şirurile nealeatoare. Pragul xa se 
determină (folosind tabele pentru legea 72) din condiţia 

P(X > x) = ot, 

Zona critică a testului va fi (a,+ee). Dacă valoarea x a lui X, 
calculată pentru şirul testat, aparține zonei critice, ipoteza Ho va fi respinsă la 
nivel de semnificație au, adică şirul va fi considerat nealeator. Dacă 
* € [0,x ] acceptăm ipoteza Ho; nu sunt suspiciuni că şirul ar fi nealeator. 

De exemplu, dacă y=5 şi u=0.025, atunci xa=12.83; probabilitatea ca 
un şir aleator să fie declarat, în mod eronat, ca nealeator este de 0.025. 
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11.13. Noţiunea de P-valoare 


Uneori nu se lucrează cu pragul x,, ci se preferă folosirea așa-numitei P- 
valori. Vom prezenta această noţiune în cadrul exemplelor (a) şi (b) de mai sus. 


a. Fie x valoarea numerică a lui X pentru şirul testat. Probabilitatea 


P( 


X| > lx]) 


se numeşte P-valoare. 


Examinând figura de mai sus deducem că urmatoarele afirmaţii sunt 
echivalente. 
1) X aparține zonei critice 
2) lxl > Xa 
3) PLX] > lxD)< PCA] > x) 
4) P(AI > lx]) <a 
Din echivalența condiţiilor (1) şi (4) deducem că ipoteza Ho va fi 
respinsă dacă şi numai dacă P-valoarea este mai mică decât a. 
Aşadar şirul testat va fi respins ca nealeator (la nivelul de semnificaşie 
a) dacă şi numai dacă P-valoarea calculată pentru el este mai mică decât a. 


b. În condiţiile acestui exemplu, descrise în secţiunea precedentă, fie x 
valoarea numerică a lui X pentru şirul testat. Probabilitatea P(x | > ]) se 


numeşte P-valoare. 
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Examinând această figură conchidem că următoarele afirmaţii sunt 
echivalente: 


1) x aparţine zonei critice 
2) x > Xa 

3) P(X > x) < P(X > x) 
4) PU >) a. 


Echivalenţa condiţiilor (1) şi (4) arată că ipoteza Ho va fi respinsă la nivelul 
de semnificație a dacă şi numai dacă P-valoarea este mai mică decât a. şirul 
testat va fi respins ca nealeator dacă şi numai dacă P-valoarea calculată pentru el 
este mai mică decât a. 
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lată, în rezumat, două concluzii. 

1. Dacă testula fost proiectat pentru nivelul de semnificație a=0.001, din 
1000 de şiruri produse aleator, el va respinge, în medie, unul singur ca fiind 
nealeator. Dacă pentru un şir dat P-valoarea este mai mică decât 0.001, 
şirul va fi declarat nealeator, iar probabilitatea ca această decizie să fie 
greşită este 0.001. 

2. Din 1000 de şiruri aleatoare, un test cu nivelul de semnificație a=0.01 va 
respinge, în media, 10 şiruri ca fiind nealeatoare. Un şir cu P-valoarea mai 
mică decât 0.01 va fi declarat nealeator, iar nivelul nostru de încredere în 
corectitudinea acestei decizii este 99%. 


11.14. Un exemplu: statistică repartizată normal 


Am observat deja mai sus că aruncând o monedă netrucată generăm un şir 
binar aleator. Prin urmare, având de testat un şir dat, ne putem imagina că ela 
apărut ca rezultat al aruncărilor unei monede, şi rămâne să testăm dacă moneda 
este netrucată. 

O astfel de testare a fost descrisă anterior, la nivelul de semnificaţie 
u=0.05; tot acolo am văzut ce fel de consideraţii pot fi făcute în legătură cu 
probabilitatea PB (de a accepta ca aleator un şir care de fapt nu este aleator) şi în 
legătură cu puterea testului. 

În cazul specific al şirurilor binare, metoda respectivă de testare poate fi 
descrisă astfel. Considerăm un şir binar de lungime n. Formulăm ipoteza 


Hy : şirul este aleatoriu 


Statistica S, va indica numărul de apariţii ale cifrei 1. Sub ipoteza Ho, S, 
este repartizată binomial, cu parametrii n şi adică 


P(S„=klp=2)= (0(5) (6) = (02, KO. 


$n== 
Notăm A === 


= 
Pia 


Atunci X este repartizată aproximativ N(0,1), adică 


P(x > 2) = P(ă e —2)=1-(2), 


unde 


si: 


= dt, Z>0. 


e(2) = alae 


Fixând nivelul de semnificaţie a, vom determina pragul Xa din relația 
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1— (x) = 


Lai =: 


De exemplu, X0.05 = 1.96, iar X0.01 = 2.58. 


Pentru un şir dat, să notăm cu x valoarea numerică a lui X: 


Atunci P-valoarea asociată şirului va fi 
Pilă| > lx)) = 2(1— e(1xD) 


Cu scop ilustrativ, să considerăm exemplul şirului binar 


1011010101 
Să fixăm nivelul de semnificație a = 0.01, ceea ce determină pragul 
Xa = 2.58. 
Avem n=10, S„=6, deci 


Întrucât 0 < x < xa, acceptăm ipoteza că şirul este aleator. 
De altfel putem calcula şi P-va/oarea pentru acest şir, ea este 


2(1 —4(0.63)) = 0.52 > 001 


Să considerăm acum şirul binar 
ILLLOIIIII 


Avem n=10, S„=9, deci 
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P-valoarea calculată pentru acest şir este 
2(1 — &(2.52)) = 0.012 


şirul trece (aproape la limită) testul cu nivelul de semnificaţie 0.01, dar este 
respins de testul cu nivelul de semnificație 0.05. 


11.15. Alt exemplu: statistică repartizată y? 


Fie M şi N numere naturale fixate. Considerăm un şir binar de lungime n = 
MN, pe care îl împărțim in N blocuri consecutive de lungime M. Notăm cu M; 
numărul de cifre 1 în bloculi, i £ (1,2,...,N). 
Sub ipoteza 
Hy: şirul este aleator, 


M, este o variabilă aleatoare binomială cu parametrii M şi % ; altfel spus, 


E e 


Fr 


run in (6) 


se să Da M 
Media lui M; este =, iar dispersia îi 


În aceste condiţii variabila aleatoare 


este repartizată aproximativ cu N grade de libertate; altfel spus, densitatea ei de 
probabilitate este funcția 


1 ni ă 
(£) = let 2, t > 0 
f ă ) 2'2T(N,/ 2) 3 
Este comod să notăm cu 7; = = frecvenţa relativă a cifrei 1 in blocul i. 
Atunci putem scrie 
N 
i 1. 
X=4M) (a -37 
= 
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Această variabilă aleatoare cu N grade de libertate poate fi folosită la 
testarea şirului, aşa cum se arată în exemplul de mai sus. 
Cu scop ilustrativ, să considerăm şirul 


011001101 
Alegem M=3, N=3, şi considerăm blocurile 
011, 001, 101 
Cu notaţiile anterioare, 
EP INR. 
1 grai 3 3 


mo z((3-2) +33) +3): 


Lucrăm cu 3 grade de libertate; din tabele găsim că P-valoarea şirului este 
0.80, deci şirul este considerat aleator la nivelele de semnificație 0.01 şi 0.05. 
Aceeaşi concluzie se obține comparând valoarea x=1 cu pragurile xo. = 11.341 
şi X0.05 = 7.815. 
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Capitolul 12 


Analiza regresiei 


Introducere 


Analiza de regresie îşi are originile în nenumăratele probleme practice, 
care apar atunci când dorim să înţelegem şi să cuantificăm aspectul cauză-efect, 
în studiul a două sau mai multe fenomene, de natură diversă. Principala noțiune 
cu care operează acest capitol este noţiunea de model de regresie. Vom vedea în 
cele ce urmează câteva generalități ale problemei regresiei, prezentându-se 
principalele tipuri de modele de regresie, apoi se va fundamenta modelul liniar 
multiplu, incluzând  particularitățile modelului liniar simplu, estimarea 
coeficienţilor modelului prin metoda celor mai mici pătrate, inferența asupra 
modelului în ipotezele Gauss-Markov, precum şi aspecte privind previziunea pe 
baza modelului de regresie. 


12.1. Modele de regresie 


Să considerăm, spre exemplu, că fiecare element al unei populații 
statistice posedă o caracteristică numerică, X şi o alta Y. Pentru a vedea cum 
afectează valorile lui X, realizările variabilei Y, este necesară studierea posibilei 
corelaţii existente între cele două variabile. Un exemplu clasic este acela care 
studiază înălțimea unei persoane, în funcție de cea a tatălui. 

În cazul legăturilor statistice, care conţin ca şi caz particular, aferent 
dependenţei totale, legătura funcțională, unei singure valori, x, a variabilei X, i se 
asociază o repartiție de valori a variabilei Y, de medie / (x), xe D, D fiind 


mulțimea valorilor variabilei X. 


Definiţia 12.1.1. Dacă pentru fiecare valoare, x e D, a lui X, Y este o variabilă 
aleatoare cu distribuţia de probabilitate depinzând de x, vom numi funcţie de 
regresie a lui Y pe X, funcția f (x), definită cu ajutorul valorii medii 
condiţionate, 


f)= El) ep. (2.1.1) 


Ținând cont de caracteristicile valorii medii condiționate, o legătură directă 
între Y şi X va fi dată atunci, de modelul de regresie simplă 
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Y= f(X)+e, (12.1.2) 


unde £ satisface condiţiile E(2)=0 şi Var(e) - minimă şi are semnificația de 
eroare de specificare, eroare datorată faptului că variabila/variabilele luate în 


considerare nu sunt singure suficiente, pentru a explica în totalitate, fenomenul 
cuantificat de Y. 


Vom considera în cele ce urmează, aşa cum se întâmplă şi în practică, 
mai multe variabile cauză (variabile exogene, predictori, 
regresori), X,, X,..-, X > pentru variabila efect, Y (variabilă endogenă). 


Definiţia 12.1.2. Modelul de regresie multiplă este modelul de forma 


Pf LX a, ei (12.1.3) 
unde £ reprezintă o variabilă aleatoare, pentru care E(6)=0 şi V(e) mică. 


Deşi X,,X,,...„X, sunt considerate variabile deterministe, Y împrumută 


de la £ , caracterul aleator, termenul eroare, £ , fiind cel care transformă modelul 
matematic, strict funcțional, în unul statistic. 

Odată specificat un model de regresie, este necesar să determinăm, sau 
măcar să estimăm, funcţia de regresie /, pe baza unor date de selecție. Astfel, 
spre exemplu, pentru un model de regresie simplă, se porneşte de la datele 


(x,y, i = 1,n , care reprezintă de fapt, o selecţie de volum n, pentru variabilele 
X şi Y şi se obţine modelul observaţional y, = f(x,)+ e,,i = ln. E bine de ştiut 
faptul că, £, poate cuprinde pe lângă erorile de specificare şi erori de observare, 


în cazul în care valorile variabilei Y şi eventual, ale variabilei X, ne sunt puse la 
dispoziţie, în urma unor măsurători, posibil afectate de mici erori. Desigur, se 
presupune că în modelul de regresie nu intră erorile sistematice, ci doar cele 
aleatoare. Din punct de vedere al punctului de plecare, în procesul de estimare a 
funcţiei de regresie /, deosebim regresia parametrică şi regresia neparametrică, 
cea din urmă nefiind obiectivul acestui capitol. Dacă în determinarea funcției de 
regresie se pleacă de la ideea (desigur pe cât posibil fundamentată), că funcția / 
are o anumită formă atunci vorbim de regresia parametrică. 


Definiţia 12.1.3. Modelul de regresie în care funcţia este de forma 
i Pale, OT, a 2 i 0 000 ANR, Li Rat, E AR 708 IVI iai ii 


se numeşte model de regresie parametrică. 
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Plecând de la definiţie, se observă că un model de regresie parametrică 
presupune cunoscută forma funcției de regresie, f (mai bine zis a estimatorului 
căutat), excepție făcând un număr finit de parametri necunoscuţi, adică 


/0= flo), cu a =(a,....a,) e Be 1R*. Evident, dacă f(.„a) este 


cunoscută, estimarea lui /, într-un model de regresie parametrică, revine la 
estimarea lui a . Folosind metode de estimare adecvate bazate pe minimizarea 
erorii din model, cum ar fi criteriul celor mai mici pătrate, € posibil să se 
estimeze, din date, vectorul a şi implicit f. Reprezentarea grafică a estimatorului 
funcţiei f, obținut prin astfel de metode, va fi o curbă care ajustează, cel mai bine 
datele, din mulțimea de curbe permise, prin specificarea modelului. 

Modelele de regresie parametrică pot depinde, într-o manieră liniară sau 
neliniară, de parametri. 


Definiţia 12.1.4. Vom spune că avem o regresie liniară, dacă funcţia f este 
liniară în variabilele X,,X.,...„X, adică asupra funcţiei de regresie facem 


presupunerea că are forma 
A (000 CEDO de Ie ei Ă (12.1.5) 


Orice altă formă a funcţiei f presupune regresie neliniară. 


Forma liniară a funcției de regresie şi metoda celor mai mici pătrate 
utilizată în scopul estimării parametrilor sunt cele mai des întâlnite, în analiza 
regresională. Modelele liniare sunt cele mai simple şi mai utilizate modele, 
multe dintre modelele neliniare şi chiar neparametrice, făcând apel la 
caracteristicile acestora. Tehnicile de estimare punctuală şi inferențială, utilizate 
în determinarea modelului liniar, ţin de un domeniu important în analiza 
regresională şi anume, regresia liniară. 

Există însă o grupă de modele neliniare, care pot fi tratate tot prin 
intermediul tehnicilor regresiei liniare şi anume, modelele neliniare liniarizabile, 
o parte dintre acestea fiind şi modelele liniare în parametri. 


Definiţia 12.1.5. Se numeşte model de regresie liniarizabil în parametri, 
modelul în care funcţia de regresie este de forma 


FOC Xa es Xsara, = Sase (AX, (12.1.6) 
k=l 


adică este presupusă liniară, în raport cu parametrii a,....a ,. 


Astfel de modele pot fi liniarizate prin substituţiile, 
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Pe (XXX, Za k= ba, 
un exemplu fiind modelul de regresie polinomială, în care 
fOiao,au.--a, = aa +a X++a,X* (12.1.7) 
şi din care pentru g=/ derivă modelul de regresie liniară simplă, dat prin 
FiZiaa, = a +a. (12.1.8) 


Un astfel de model este şi modelul hiperbolice, cu funcția de regresie 
/UX Ap ză a lniarizabil prin substituția zi A, Tot din grupa 


modelelor neliniare, dar liniarizabile, fac parte şi modelele care se reduc la 
modelul liniar, în urma mai multor operaţii: logaritmare, substituție, etc. Un 


exemplu este modelul exponențial, dat de funcţia f(X;a,,a,)= a, -a," , care 
se  liniarizează prin  logaritmarea log f(X;a,,a, )= loga, +ĂX:logo, şi 
substituţiile F(X, A4,B)= log f(X;a,,a,) şi A=loga,,B= loga,, obținându- 
se modelul liniar dat prin F(X, A4,B)=A+X.B. Există însă şi alte modele 
neliniare, care nu pot fi liniarizate, cum ar fi de exemplu, modelul 
Y=ay+a,X“*+e. Este deja bine cunoscută formularea, că modelele neliniare, 


liniarizabile prin substituție, adică acelea în care se presupune că funcția de 
regresie este liniară în parametri, ţin de regresia liniară, deoarece studiul lor se 
face cu tehnicile acesteia. Modelele neliniare în parametri, dar liniarizabile în 
urma unor operaţii, cum ar fi logaritmarea, pot fi tratate, atât cu tehnici ale 
regresiei liniare, cât şi cu cele ale regresiei neliniare. Aplicarea regresiei liniare 
pe modelul transformat are avantajul că estimatorii se bucură de proprietăți mai 
bune şi dezavantajul că modelul obținut este doar o aproximare a celui inițial (a 
se vedea cazul modelului exponențial, în care erorile intră aditiv în modelul 
iniţial). Modelele neliniarizabile ţin exclusiv de regresia neliniară, regresie în 
care tehnicile nu mai pot fi fundamentate, pe avantajele obţinute din liniaritate. 

Pentru modelele neliniare, sistemul care derivă din criteriul celor mai 
mici pătrate fiind neliniar, se întâmpină de cele mai multe ori, dificultăți de 
rezolvare, motiv pentru care, atunci când modelul este liniarizabil, se preferă mai 
întâi liniarizarea lui, care va duce la un sistem liniar de ecuaţii normale şi nu 
aplicarea directă a criteriului, deşi în acest fel, se obține doar o aproximare 
rezonabilă a modelului iniţial. În cazul modelelor care nu pot fi liniarizate, se 
aplică tehnici ale regresiei neliniare, bazate în special pe metode iterative, cum ar 
fi metoda iterativă Gauss - Newton. 
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12.2. Modelul liniar. Estimarea parametrilor modelului prin 
metoda celor mai mici pătrate 


În acest paragraf, ne ocupăm de aspecte privind ajustarea modelului 
liniar. Sunt amintite forma teoretică, forma observaţională/matriceală şi forma 
ajustată a modelului liniar, precum şi condiţia care garantează existenţa soluției 
ajustării de cele mai mici pătrate. 


Definiţia 12.2.1. Se numeşte model regresional liniar multiplu, între variabila Y 
şi variabilele X,, X,...„X.„, modelul 


P 
Y=YVa,ă,+e. (12.2.1) 


k= 


Problema regresiei liniare constă în studiul comportării variabilei Y, în 
raport cu factorii X,,Ă2,...„X,, în ipoteza (12.2.1). Acest studiu revine la 
evaluarea parametrilor (coeficienţilor) de regresie, a,,a»,...„a, şi a termenului 
aleator, s. Estimarea coeficienţilor de regresie se face pe baza unei selecții de 
volum n. Pentru datele de selecţie (şi atunci când este cazul pentru variabilele de 
selecție), vom folosi următoarele notații: 


it SPOR ae RULA 
i ee O E 
pă (e A A) fc x = (x, )= i ? | n> p.(12.2.2) 
e de cita 


În cazul în care analistul are control asupra alegerii variabilelor, X,,X,,..X E 


matricea x se numeşte matrice de design. Pentru parametrii a,,k = Ip, şi pentru 


erorile £&,;,i = l,n, corespunzătoare datelor de selecție, vom folosi de asemenea, 
notațiile matriceale : 


= (a,„ass.a,)e RE e (Eee )eIR" (12.2.3) 


Pentru datele de selecție corespunzătoare lui „i, modelul (12.2.1) devine 
modelul observaţional (cu datele observate), 


p 
y; = Vauxu + e, (12.2.4) 
k=l 
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ceea ce, pentru i=l,n, duce la forma matriceală a modelului liniar 
observaţional, 


y=xa+e, (12.2.5) 


în care y,x,a şi e sunt cele din notaţiile (12.2.2) şi (12.2.3). În vederea 


estimării lui  , se ajustează modelul (12.2.5), printr-o condiţie de minim asupra 
erorii, care aşa cum am subliniat încă din paragraful introductiv al acestui 
capitol, este de dorit să fie mică. Ne vom opri aici, doar asupra ajustării prin 
criteriul celor mai mici pătrate, care constă în minimizarea expresiei 


Bled a, (12.2.6) 
i=l 


Definiţia 12.2.2. Se numeşte model liniar, ajustat prin criteriul celor mai mici 
pătrate, modelul 


y=xa+e, (12.2.7) 


unde a' = (a „az...a,)e IR” realizează minimul expresiei (12.2.6), iar e'e, cu 


e' = (e e, ...se,)e IR" /este valoarea minimă obținută. 


Sistemul de ecuaţii, la care revine condiţia de minim, este 
A = (12.2.8) 


şi se numeşte sistemul de ecuaţii normale (Gauss), ataşat modelului (12.2.7). 
Notaţiile a şi e desemnează estimatori punctuali ai lui a şi £, atunci când 


Ypi=ln, Xysi=ln,k=l,p, desemnează variabilele de selecţie şi estimaţii 
punctuale (valori nenule), atunci când prin y;,i=ln, xpsi=ln,k=lp, 
înțelegem date de selecţie. Obţinerea estimatorilor de cele mai mici pătrate a, 
pentru coeficienții de regresie necunoscuţi a, depinde aşadar, de existenţa 
inversei matricei x'x, care revine la condiţia rang(x'x)= p. Se cunoaşte 


următorul rezultat, care dă condiţii de existență (unică) a estimatorilor de cele 
mai mici pătrate (a se vedea de exemplu [30]). 


Teorema 12.2.3. Dacă rang(x)= p, atunci soluţia ajustării prin criteriul celor 
mai mici pătrate este dată de formula 


a = (xx) xy. (12.2.9) 


Condiţia rang(x)=p revine la independenţa liniară a vectorilor 


X 3 Xa. Amintim în continuare, câteva noţiuni utilizate şi în teoria 


i 
modelelor de regresie oarecare. 


Definiţia 12.2.4. Se numeşte valoare ajustată a lui y (în modelul liniar), 
valoarea y' = (a iza De )-e IR", definită de y = xa. Se numeşte matrice de 
influență a modelului, matricea IH care transformă valoarea y, în valoarea 
ajustată y, adică, y = Hy, matricea de influență în modelul liniar fiind de 


forma H = x(x'x) x". Se numeşte reziduu, valoarea e = y— > =(I — Hy. 


Un caz particular al modelului liniar, care face mai uşor trecerea la 
modelul liniar simplu (cu o singură variabilă exogenă), este modelul liniar cu 
termen constant. 


Definiţia 12.2.5. Se numeşte model liniar cu termen constant, un model liniar în 
care una dintre variabile este înlocuită de constanta 1. 


Modelul observațional, scris pe baza datelor de selecție în forma 
matriceală, va arăta atunci astfel, 


Y = Xp tua, te, (12.2.10) 


Lă 
.. i ai p-l 
cu notaţiile a, e1R, x = [atasa] E Mp o = (a,ass...a,)e 18 
u' = (l...l)e 1R”. Dacă notăm x = (x, :u), a = (a;,a,), modelul poate fi scris 
în forma modelului liniar oarecare, y = xa +€. O teoremă similară cu Teorema 


12.2.3 are loc şi în cazul modelului liniar cu termen constant. 
3 A NE g zi 
Teorema 12.2.6. Fie matricea de centrare, P = Î — —uu'. Notăm cu Z , vectorul 
n 
a, a] NP 

centrat corespunzător lui ze IR", adică 2 = Pz = (2, Zi e Da 7) cu 
z, media de selecție. Dacă rang(x)= p şi x= (4 ia). ajustarea prin metoda 
celor mai mici pătrate are soluţia unică dată de 


(12.2.11) 


237 


unde X%, este matricea obținută din matricea xy, prin centrarea vectorilor de pe 
coloană, iar y şi x, , notează mediile de selecţie corespunzătoare valorilor >, 


respectiv, Xysi = ln. 


Observaţia 12.2.7. Dacă în Definiţia 12.2.5, se consideră p = 2, obținem 
modelul de regresie liniară simplă, 


Y=0X+fB-+e, (12.2.12) 
care cu ajutorul datelor de selecție se scrie, 
rea A E, i= ln, Yo X e A, Be IR. 


În acest caz, relaţiile (12.2.11) dau reprezentarea estimatorilor a şi b, ai 
coeficienţilor & şi fB şi anume, 


(12.2.13) 


unde cov(x, y) reprezintă covarianța între x şi y, iar S: , varianţa lui x. 


Exemplul 12.2.8. Teoria economică privind gestiunea portofoliului susține că 
rentabilitatea unei acțiuni este influenţată de modificarea indicelui general al 
bursei, adică de evoluția pieței în general (modelul de piață Sharp-Markowitz, 
([17])). Pornind de la această idee, se pune problema determinării estimatorilor 
de cele mai mici pătrate pentru coeficienții unui model liniar simplu care să 
descrie corelaţia dintre rata rentabilităţii unor acțiuni, Y şi rata rentabilității 
pieței, X. Se va considera un eşantion de 15 zile, cu valorile: 


Y(%): -2,8; 0,2; 1,6; 3,9; 0,2; 2,4; 4,4; 18,6; 1,5; -17,9; 0,5; 0; 0,8; 0,1; -0,8 
A(46):20,9,. 197.327.90.33 704.3;02 10,020 513,1 0.750,95 2,951,85141. 


Soluţie 
Pe baza eşantionului, obținem y =0,85, x =2,32, cov(x, y) = 41, 


S? = 36, prin urmare, conform formulelor de calcul pentru a şi b, avem 
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a= 0103 şi  b=0,85 2321476 şi modelul ajustat este 


Y = —1,76+1,13-X+e. 


12.3. Modelul liniar clasic Gauss - Markov. Inferenţe asupra 
estimatorilor unui model liniar 


În acest paragraful tratăm aspectul probabilist al regresiei, cercetând 
calitățile estimatorilor de cele mai mici pătrate, calități obținute sub anumite 
ipoteze de natură probabilistă, făcute asupra erorii. Sunt amintite ipotezele 
clasice, calităţile estimatorilor în aceste ipoteze, câteva statistici utile în inferența 
asupra coeficienţilor, precum şi intervalele de încredere privind coeficienții şi de 
asemenea, câteva din testele cunoscute, referitoare la coeficienți. 

În continuare, pe tot parcursul acestui capitol, se păstrează notaţiile 
referitoare la forma teoretică, forma matriceală şi forma ajustată a modelului, 
precum şi condiția rang(x)= p.Vom începe prin a preciza ipotezele clasice în 
care se lucrează într-un model liniar, ipoteze care, deşi nu neapărat de neînlocuit, 
duc la bune proprietăţi ale estimatorilor. Aceste ipoteze se referă la distribuţia 
erorilor şi anume, 


E(e)=0, 0=(0,0,...0) ea", (2.3.1) 
Var(e)= E(e-e)=o?1, (12.3.2) 
eeN (12.3.3) 
Sau altfel spus, 
e e N(0,0:1). (12.3.4) 


Condiţia (12.3.2) se poate scrie şi sub forma relaţiilor 
Var(e,)= o?,vi =1,n, (12.3.5) 
covle£,)=0,viz ji, = n. (12.3.6) 
Condiţiile puse asupra erorii se transferă asupra variabilei aleatoare, adică avem 


ye Nlxa,o?1). 
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Definiţia 12.3.1. Ipotezele (12.3.1) şi (12.3.2) sunt cunoscute şi sub denumirea 
de ipoteze Gauss-Markov, modelul liniar sub aceste ipoteze, numindu-se 
modelul liniar Gauss-Markov. Pentru eroarea care satisface aceste ipoteze se 
foloseşte şi denumirea de zgomot alb. Datorită ipotezei (12.3.5), modelul se 
numeşte homoscedastic, iar datorită ipotezei (12.3.6), model cu erori 
necorelate. Dacă la ipotezele Gauss-Markov, se adaugă şi ipoteza normalității 
(12.3.3), atunci modelul liniar este cunoscut şi sub denumirea de model liniar 
clasic, cele trei ipoteze fiind apelate ca ipotezele liniarităţii modelului, deşi 
acestea nu ţin neapărat de un model liniar. Un model clasic (liniar sau nu) este 
de fapt, un model cu erori normale ((12.3.3)), independente ((12.3.6)) şi identic 
distribuite ((12.3. 1) şi (12.3.5)) sau prescurtat i.i.d, 


Înainte de a aminti principalele rezultate, cu privire la calitatea 
estimatorilor de cele mai mici pătrate, a şi e, pentru a şi £, obţinute sub 
ipotezele (12.3.4), vom sublinia faptul că y,g,a şi e sunt vectori aleatori, în timp 


ce a este un vector determinist şi de asemenea, x,,x,,...,X,, din matricea 


variabilelor de selecție, x = (xx, pesta Jă sunt vectori determinişti. 


Teorema 12.3.2. În ipotezele Gauss-Markov, au loc următoarele afirmaţii: 
i)Estimatorul de cele mai mici pătrate, a, al lui a , este nedeplasat, E (a) =0 şi 
are varianța Var(a)= o?(x"x)". De asemenea, Var(5)= o*H „ unde II este 
matricea de influență a modelului. 

ii)Estimatorul a, al lui a , este liniar în observaţiile lui y. 

iii) Estimatorul a al lui a este optimal, adică oricare alt estimator ă , nedeplasat 
pentru a şi liniar în observaţiile lui y, are varianța mai mare decât varianţa lui 


a, în sensul că, Var(a, )< Var(ă,), k = Îi 


Teorema 12.3.3. În ipotezele Gauss-Markov, estimatorii 


(12.3.7) 


sunt estimatori nedeplasaţi pentru O”, respectiv Var(a). 
În plus, au loc şi următoarele proprietăţi: 


Propoziția 12.3.4. În ipotezele Gauss-Markov, avem: 
i)Estimatorul e al lui e este de varianță Var(e)= "0, unde O=I1-H,H 
matricea de influenţă ataşată modelului. 
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ii)Dacă ceM,,, 


estimatorilor nedeplasaţi, care sunt transformări liniare ale lui y. 


atunci ca este estimator optimal pentru ca, în clasa 


Lă 
iii) Estimatorii a şi e sunt necorelaţi, adică cov(a,e)=8, 8 =(0,0,...0) e R”. 
Ipoteza normalităţii erorilor aduce noi proprietăţi ale estimatorilor. 


Propoziția 12.3.5. Într-un model liniar clasic (cu erori normale şi i.i.d.- 
(12.3.4)), estimatorul obținut prin metoda celor mai mici pătrate este un 
estimator eficient pentru a. 


Atunci când se cunoaşte legea de probabilitate a variabilei y (prin 
intermediul legii erorilor), putem vorbi şi despre estimatori de verosimilitate 
maximă, respectiv de regresie de verosimilitate maximă. Într-un model liniar, 
supus ipotezelor clasice (12.3.4), estimatorul lui a, de cele mai mici pătrate, 
coincide cu estimatorul lui a , de verosimilitate maximă, în timp ce estimatorul 


de verosimilitate maximă, S$,, pentru o” este nedeplasat, unde : 


l= l n-p 
S2 = e? = —e'e= s?, 12.3.8 
y/x 2 i n n ( ) 


De asemenea, în ipoteza normalităţii, ataşată ipotezelor Gauss-Markov, se 
pot stabili şi următoarele proprietăţi, care furnizează statistici ce se vor dovedi 
utile în inferenţa estimatorilor. 


Propoziția 12.3.6. Dacă e e N(0,021), atunci avem 


i)Estimatorii a şi s” sunt independenți şi a e N lao? (x)! ) 


2 n 

ii) N? = (n- p)->= Se eN?(n-p). 

(9) O i-a 

Sa-6a 
iii)Fie U = = (5 „0 )e IR?. Oricare ar fi 5 e IR?, U şi s? 

oj5'(xx)'5 i 

sunt independente şi U e N(0,l). Mai mult, 
picat D030 0 citez pi) Use a 


Aceste proprietăți se bazează pe următorul rezultat din teoria 
probabilităților ([30]): 


Lema 12.3.7. Fie vectorul e e IR" , care urmează legea normală, de medie 0 şi 
matrice de varianţă, 071; fie de asemenea, matricele Oe M „nUR). 9'=0, 
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0'=0, r=rang(0), Le M„„UR), LO=8. Atunci, —ze'0e eN?(r), 


E R Se l 
Le e N şi vectorul aleator Le , împreună cu variabila aleatoare —e'Qe, sunt 
o 


independenți. 


Statisticile amintite în Propoziția 12.3.6, pot servi la realizarea inferenţei 
asupra estimatorilor de cele mai mici pătrate. Începând de aici, în tot restul 
paragrafului, vom presupune adevărate ipotezele modelului liniar clasic. Ne vom 
referi, pentru început, la inferenţa prin intervale de încredere. 


Interval de încredere pentru coeficienți 


Dacă în statistica T din Propoziția 12.3.6iii, se particularizează 
5' = 5) =(0,0,....l....0)e IR? , se obţine statistica Student, cu n-—p grade de 
libertate, 


PESE, (12.3.9) 


unde s; este produsul dintre s” şi elementul al 4-lea, diagonal, al matricei 


=1 . Ri A 
(xx). Pe baza acesteia, se poate construi un interval de încredere pentru 
coeficienţi, de forma 


aus p <A <a rsrt Je (12.3.10) 
n-pl-— n-pl- 


unde 7 este cuantila de ordin Ia a unei variabile Student, cu n-p 
n=p,l-— 
2 


grade de libertate, care rezultă pentru un nivel de semnificaţie g, fixat, din 
relația 


dipl=a „i-o (12.3.11) 
n-p, 2 


Desigur, în cazul în care o este cunoscut, nu mai este nevoie de operaţia 
de studentizare şi atunci, se poate folosi statistica U, din Propoziția 12. 3.6 iii. Pot 
fi de asemenea elaborate regiuni de încredere, pentru xa e JR" şi ae IR?, 
regiuni pe care nu le vom aminti aici. Atunci când o este necunoscut, pe lângă 
estimaţia punctuală s, se poate da şi un interval de încredere pentur varianță. 


262 


Interval de încredere pentru varianță 


Pe baza statisticii N”, cu n-p grade de libertate, din Propoziția 


12.3.6.ii, se poate construi un interval de încredere pentru o”, de forma 


2 2 
s s 
P (n- poz — so? < (n ps =1-g, (12.3.12) 
n-—p.l-— n—p— 
unde N? şi N” „sunt cuantilele de ordin 2 respectiv o ale unei 
n-pl-> n-p> 


variabile N?, cu n — p grade de libertate, determinate astfel încât pentru un nivel 
de semnificaţie g, fixat, să aibă loc relația 


d < N? < N? i-o. (12.3.13) 


In ultima parte a acestui paragraf, vom prezenta un al doilea aspect al 
inferenţei asupra estimatorilor şi anume, testările de ipoteze asupra coeficienţilor. 


Testul T pentru coeficienţii unui model liniar 


Ipotezele acestui test sunt ipoteza nulă, H, :a, = a) şi alternativa ei, 
Ha, £ ab), ceilalți coeficienți fiind în afara ipotezelor. 

Testul se fundamentează pe o statistică de tip Student, cu n-—p grade de 
libertate, 7,, precizată în formula (12.3.9). Pentru nivelul de semnificație g, 


P 


rezultă cuantila / de ordin i a unei variabile Student, cu n-p 


> 
n-part 


grade de libertate aşa încât, 


dir. <t i] =1-g. 
n-pl-= 


(0) 
Ș a, —a E ea i 
Se calculează valoarea £, =-A———, a statisticii 7,, pe baza datelor de 
Sp 
selecţie şi se respinge ipoteza nulă, dacă | > ,. 
n=p;l-— 
2 
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Un caz particular al acestui test este cel al semnificației coeficientului &,, 
test bazat pe ipotezele H,:a, =0 şi H:a, +0. 
Următoarele două teste clasice, pe care le vom prezenta, se bazează pe o 


statistică de tip Fisher-Snedecor, furnizată de următorul rezultat din teoria 
probabilităților ([19]). 


Lema 12.3.8. Fie vectorul aleator e! = (e „...»£, ), ce urmează legea normală, cu 
ge N(0,021) şi fie matricele x e M,„,UR), 4eM,,UR), 
X, =x4eM 


n UR). Dacă se notează Q=1-xdzx) x şi 


-—l . ial 
0, = 1 — xl) x, atunci statistica 


p—_ £Qoe-60e 28 12.3.14 
rans(0,)- rans(0)/ rans(0) 


urmează legea de probabilitate Fisher-Snedecor, cu rang(0, )- rang(0) şi 
rang(0) grade de libertate. 


Vom nota pe tot parcursul acestui paragraf, 
See și 5 = Oe, (12.3.15) 


Se observă că, dacă matricea X din lemă este matricea datelor de selecție 
dintr-un model liniar, atunci avem O = / — H , unde HI este matricea de influență. 


) 2 2 Ş ) 2 a ie atacă 
Mai mult, vom avea S; = le, | = eye, şi S; = |e| = e'e. In cazul formulării 
unei ipoteze H,, asupra coeficienţilor unui model liniar, ipoteză în cadrul căreia 
matricea datelor de selecţie devine de forma X, din lemă, notaţiile Ss şi S; 


reprezintă suma pătratelor reziduurilor, în modelul redus (obținut în ipoteza H, ), 


respectiv suma pătratelor reziduurilor, în modelul complet (obţinut în ipoteza 
TE) 


Testul F al egalităţii între q coeficienţi 


Se testează ipoteza nulă, Hy:0, =...=a,,q<p, cu alternativa, 
H,:” Hy — falsă”. Pentru un nivel fixat g, se determină valoarea f = fi sa pap» 


a unei statistici Fisher-Snedecor, cu q-—l şi n-p grade de libertate, astfel 
încât, 
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P(F < /|H,)=1-o. 


n-p Ss-S; 
—1 Ss? 
o valoare calculată a statisticii F din Lema 12.3.8, pe baza datelor de selecție. 


este 


Ipoteza nulă se va respinge, dacă f, > f , unde f, = 


Testul F al semnificației a q coeficienţi 


Se testează ipoteza nulă, H,:a, =...=a, =0, q<p cu alternativa, 
H, :” H-falsă”. Pentru un nivel fixat p, se determină o valoare f = fa pupă 


unei statistici Fisher-Snedecor, cu q şi n — p grade de libertate, astfel încât, 
P(F < /|H,)=1-e. 


a A) dea 
2 


d S, 
o valoare a statisticii F din Lema 12.3.8, calculată pe baza datelor de selecție. 


Ipoteza nulă se va respinge, dacă f, > f , unde f, = este 


Exemplul 12.3.9. Reluând datele din Exemplul 12.2.8, ne propunem să 
determinăm intervalele de încredere de tip 95% pentru coeficienții modelului 
liniar simplu. 


Soluţie 

Aplicând formula (12.3.10), intervalele de încredere de tip 95% pentru 
coeficienții modelului estimaţi în Exemplul 12.2.8, vor fi (0.9156, 1.336) pentru 
a şi (-3.086, -0.4451) pentru b. 


12.4. Previziunea şi analiza rezultatelor unei regresii liniare 


Ne propunem, în acest paragraf, să amintim principalele aspecte care ţin 
de previziunea şi analiza rezultatelor unei regresii liniare, deşi, marea parte a 
aspectelor şi statisticilor considerate aici sunt valabile şi în cazul altor modele. 
([5]). Elaborarea unui model de regresie are ca scop, pe lângă determinarea unui 
mecanism, care să copieze comportamentul dependenţei studiate şi acela de a 
putea previziona, adică de a obține o estimaţie cât mai bună, pentru o valoare y,, 


corespunzătoare unor noi date pentru variabilele x,,x,,...,x,. O astfel de 


previziune primeşte credit, atunci când specificarea modelului de regresie din 
care se obține, este corectă. Astfel, înainte de a realiza previziuni asupra 
variabilei endogene y, este necesar să ne asigurăm că ipotezele făcute asupra 
modelului, în special asupra erorii, sunt valide. Vom discuta pe rând, în acest 
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paragraf, ipotezele respective, vom aminti tehnicile de verificare a lor, precum şi 
posibilitățile de corectare a situațiilor în care ipotezele nu sunt valide. De 
asemenea, vom aminti câteva statistici care se folosesc pentru a analiza calitatea 
ajustării datelor, prin model, precum şi intervalul de încredere pentru previziune. 


Controlul ipotezelor liniarităţii modelului 


În literatură, sub denumirea de ipoteze ale liniarităţii modelului, se 
întâlnesc de fapt, ipotezele clasice, definite în paragraful anterior (erori normale 
de medie zero, independente şi identic distribuite), la care se adaugă ipoteza 
necorelaţiei între erori şi variabilele exogene, X,, X,,...,.X, şi desigur, absenţa 


corelației între variabilele exogene (absența multicoliniarităţii). Verificarea 
ultimei ipoteze ţine de tehnici ale corelaţiei, care fac obiectul acestui capitol. 
Nevalidarea acestei ipoteze duce la erori mari în model de aceea, pentru a nu 
compromite din start modelul, se încearcă satisfacerea acestei condiții. Ținând 
cont de aceste două aspecte, nu vom mai relua aici această ipoteză. E bine de 
specificat că, deşi au denumirea de ipoteze ale liniarității, sunt de fapt 
presupuneri care nu au legătură cu caracterul liniar al modelului, de aceea le 
putem întâlni şi la alte modele, unde vor fi analizate în mod asemănător. 

Vom analiza în continuare ipotezele rămase, în cadrul unui model liniar. 
Deoarece aceste ipoteze se referă la erorile din model, pentru verificarea lor se 


determină modelul, se calculează reziduurile e,;,i = l,n, precizate în Definiția 
12.2.4 şi se analizează aceste reziduuri, presupunând că ele constituie de fapt, 
estimatori pentru erorile £,;,i = ln. 


Ipoteza normalităţii 


Ipoteza e e N este necesară pentru obținerea unor estimatori eficienți ai 
coeficienţilor şi de asemenea, pentru obținerea unor estimatori ce urmează legea 
normală. Verificarea normalităţii erorilor se poate face prin teste de concordanţă, 
fie prin intermediul testului lui Massey (vezi [15]), atunci când n este mic, fie 
prin testul Kolmogorov-Smirnow (vezi [23]), atunci când n este mare. Ambele 
teste se bazează pe compararea frecvențelor cumulate empirice, cu frecvențele 
teoretice, corespunzătoare legii normale. Ipoteza normalităţii, deşi necesară, nu 
este crucială atunci când volumul eşantionului este mare. Teorema centrală 
limită (vezi [23]) ne asigură că, atunci când n—, deşi e nu urmează legea 
normală, avem că estimatorul de cele mai mici pătrate a, al lui a , converge la 


legea normală. Mai precis, se introduce factorul de normalizare vn şi se obține 

că, atunci când n este mare, n (a-a) converge asimptotic, către o variabilă 

normală, N(0,n-Var(a)), de unde a — N(a;Var(a)). Pentru eşantioane mici, 
[Se de) 

dacă se respinge ipoteza normalității erorilor, se reprezintă reziduurile şi se 


calculează coeficienţii de asimetrie şi boltire ai lui Fisher, relativ la e,;, pentru a 
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aprecia mărimea deviației de la normalitate. Se vor elimina acele observaţii 
pentru care reziduurile sunt foarte mari, aşa încât reziduurile rămase să se 
apropie mai mult de valori normale şi se va reface modelul doar cu noile 
observații. 


Ipoteza zgomotului alb 


Presupunerea  E(2)=0 este necesară în obţinerea de estimatori a, 
nedeplasați, adică £(a)= a . Această ipoteză arată de asemenea, faptul că erorile 
din model nu sunt erori sistematice. Verificarea acestei ipoteze se poate realiza 
prin analiza grafică a reziduurilor sau prin analiza (grafică sau numerică) a 
intervalelor de încredere, pentru media erorii. Astfel, se reprezintă grafic 
reziduurile, fiind necesar ca valorile acestora să oscileze în jurul dreptei de 
ecuaţie, y = 0. Pentru prezentarea intervalelor de încredere pentru media erorii, 
vom aminti mai întâi, noțiunea de reziduu studentizat. Conform Propoziției 
12.3.4.i, reziduurile sunt în general corelate şi varianţele lor depind de locația 
punctelor. În vederea obținerii unei statistici Student, utilă în testele de ipoteze, 
precum şi în intervalele de încredere referitoare la erori, este necesară 
studentizarea reziduurilor, proces care constă în acest caz, într-o scalare care 
implică obţinerea aceleiaşi varianțe pentru reziduuri. În [29], se defineşte 
reziduul studentizat sub forma: 


Definiţia 12.4.1. Se numeşte reziduu studentizat, expresia 


Îi (12.4.1) 


care înainte de eşantionare este o variabilă aleatoare ce urmează legea Student, 
T (n — p). Elementul h, este elementul diagonal al matricei de influență H, iar s 


este eroarea standard a estimaţiei, definită în formula (12.3.7). 


În literatura de specialitate, se întâlnesc de asemenea şi alte forme ale 
reziduurilor studentizate. Astfel, în pachetul de programe Matlab, utilizat şi în 
statistică, se foloseşte următorul reziduu studentizat, 


ţ, = i — eT(n-p-l), (12.4.2) 


unde 
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ll: e; 
2 i 
SC) Di (fa 200) (12.4.3) 
este estimatorul varianței erorilor o”, obţinut prin omiterea datei a i-a, 
(n —1)- p, fiind astfel, numărul gradelor de libertate din model. 

Acelaşi program foloseşte următorul interval de încredere pentru media 
erorii, precizat prin limitele sale, 


ci tg ea) 1- h, i = In, (12.4.4) 

unde 7 „ este cuantila de ordin le a variabilei Student, cu n-p-l 
n-p-;l-— 
2 


grade de libertate, iar s(, este cel din (12.43). Aceste intervale pot fi 


reprezentate printr-un grafic cu bare, împreună cu reziduurile e;. Intervalele de 
încredere care nu-l includ pe 0 sunt echivalente cu respingerea ipotezei că 
E (2) = 0, respingere făcută pentru pragul de semnificaţie g. În cazul respingerii 
ipotezei de zgomot alb asupra erorii, se elimină acest neajuns, prin scoaterea din 
model a acelor observaţii pentru care intervalul de încredere (12.4.4) nu-l conţine 
pe 0. 


Ipoteza necorelaţiei erorilor cu variabilele exogene 


Ipoteza inexistenţei unei corelaţii între eroare şi câte o variabilă exogenă 
X,,k =l,p, asigură obținerea de estimatori optimali, prin metoda celor mai 


mici pătrate. Dacă există corelație între acestea, atunci estimatorul a va fi doar 
asimptotic nedeplasat. S-a constatat că deplasarea asimptotică obținută pentru a 
este mică, atunci când coeficientul de corelație liniară simplă, între e şi X, , este 


mic ([15]). Amintim aici, definiția coeficientului de corelație liniară simplă. 


Definiţia 12.4.2. Numim coeficient de corelaţie liniară simplă (Bravais- 
Pearson), între două variabile aleatoare, X şi Y, parametrul 


cov(X,Y) _ EUY)-£(X)- Er) 


Oy :0y Ox "'O0y 


r(X,Y)= (12.4.5) 


Coeficientul de corelaţie liniară simplă Pearson, de selecţie, are valori 
cuprinse între —l şi 1 şi se va calcula cu formula 
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ii (12.4.6) 


Dacă Ir] se apropie de 1, variabilele sunt liniar corelate. În cazul în care r se 


apropie de 0, nu sunt liniar corelate, iar dacă X,Y sunt normale şi r=0, 
variabilele sunt independente. 
De asemenea, se cunoaşte că statistica 


A2 


ps -(n-2) (12.4.7) 


urmează legea Student, cu n —2 grade de libertate. Aşadar, corelația între 
variabila reziduală şi variabila exogenă X, se poate testa printr-un test de 
corelație, bazat pe ipoteza H, : r(X A „£)= O, ipoteză care presupune necorelația. 
În cazul în care valoarea calculată a statisticii (12.4.7) depăşeşte cuantila de 
ordin g, a unei variabile Student, cu n-2 grade de libertate, p fiind pragul de 


semnificație al testului, se respinge ipoteza ZI. Aceleaşi informaţii se pot 


obține, analizând graficul în care reziduurile sunt reprezentate în funcție de 
valorile observate ale variabilei X,. Graficul respectiv nu trebuie să dea 


impresia vreunei tendințe, existența acesteia ducând la concluzia că există 
corelaţie. Atunci când corelația este mare, deplasarea asimptotică a estimatorului 
va fi de asemenea, mare şi e de preferat încercarea unui alt model. 


Ipoteza homoscedasticităţii modelului 


În cazul în care condiţia de homoscedasticitate (erori identic distribuite), 
V(£,)zo?, nu este îndeplinită, modelul se numeşte heteroscedastic.. Într-un 
astfel de caz, rezultă că intensitatea influenței variabilelor exogene asupra celei 
endogene diferă de la o observaţie la alta. Condiţia V(e,)=o7,i =1,n, sau 


V(e)= diaglo?,o0? SR sa 


n 


) nu afectează nedeplasarea estimatorului a de cele 
mai mici pătrate, însă influențează varianța acestuia. Într-un model 
heteroscedastic avem, V(a)— 0, numai atunci când lipseşte corelaţia între o? şi 
Xp = |, p, adică atunci când ordinul de mărime al variabilelor, pentru diverse 
observaţii, este acelaşi. Această condiție este însă, foarte rar satisfăcută în 
practică. Astfel, în general dacă modelul este heteroscedastic, eroarea V(a) a 
estimatorului creşte, prin urmare, creşte şi eroarea medie de estimare. 
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Pentru testarea homoscedasticităţii, se cunosc mai multe metode. Una 
dintre ele apelează la un test de comparare a mai multor dispersii, cum ar fi testul 


lui Bartlet (vezi [15]), bazat pe legea N”. Ipoteza H, de egalitate a dispersiilor 
se va respinge, dacă valoarea calculată a statisticii aferente testului depăşeşte 
cuantila corespunzătoare unui anumit prag de semnificaţie şi legii N?. De 
asemenea, se poate face un test de ipoteză bazat pe reziduuri. Pentru n mare 
(după [29]), reziduul studentizat 7, trebuie să fie cuprins între —2 şi 2. Se 
compară f,; calculat cu valoarea critică a distribuţiei, precizate în formula 
(12.4.2). Cazul când reziduul £, este mare generează îndoieli asupra faptului că 
reziduul are aceeaşi varianţă ca şi celelalte, ceea ce duce la nesiguranța ipotezei 
V(e?)=o2,i=1n. 

Pentru corectarea heteroscedasticităţii se utilizeză în general, rescalarea 
modelului. Spre exemplu, pentru un model de forma 


VS dă reni 
dacă 
Vile, ) a: o; = A , 
se scalează modelul astfel, 


: l l [2 
Ii = a, îl 
X;Xai Xa 


şi atunci, i| st amin 


Ipoteza independenţei erorilor 


Această ipoteză revine la 
V(e)=o21 
sau 


cov(e,,e,)= 0,iz j,i,j = In. 
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Autocorelația erorilor presupune cov(z;,e PE 0,i z ]. Ipoteza de independenţă 


este necesară în obținerea estimatorilor de varianță minimă (optimali), prin 
metoda celor mai mici pătrate, dar nu şi în obținerea estimatorilor nedeplasați. 
Autocorelaţia erorilor se regăseşte în principal, în cazul modelelor 
dinamice (serii de timp). Într-un astfel de model, din cauza proastei specificări, 
influența erorii unei perioade asupra alteia devine plauzibilă. După [15], 
autocorelaţia erorilor poate apărea în modelele statistice, doar dacă rezultatele 
observării au fost aranjate în prealabil, crescător sau descrescător, în raport cu 
variabila endogenă Y. Pentru validarea ipotezei de independenţă a erorilor, se 
poate folosi, atât metoda bazată pe analiza graficului reziduurilor, cât şi un test 
de corelare. Din punct de vedere grafic, se cercetează comportarea empirică a 
reziduurilor e,,...,e, , care nu trebuie să dea impresia unei tendinţe. Altfel spus, 


reziduurile nu trebuie să aibă pentru mai multe observaţii consecutive aceeaşi 
comportare, spre exemplu, nu trebuie să fie numai pozitive sau numai negative. 
Pentru necorelaţie, ele trebuie să fie împrăştiate aleatoriu în jurul axei absciselor. 

Din punct de vedere cantitativ, se poate folosi testul Durbin- Watson (vezi 
[29]), care verifică ipotezele H, : g; necorelate şi 


H,:6; 66, +u;, 6 > O(proces autoregresiv de ordin 1). 


Statistica aferentă testului este 


d = 2—— e [0,4]. (12.4.8) 


Pentru a admite ipoteza necorelării, trebuie ca valoarea lui d să fie în jurul lui 2. 
În cazul în care se depistează o autocorelaţie, se corectează calitatea 
estimatorilor, folosind metoda celor mai mici pătrate generalizate ([30]). 

Odată validate sau corectate ipotezele liniarității modelului, avem 
asigurate pentru estimatorii de cele mai mici pătrate, calitățile discutate în 
paragraful 12.3. Un alt aspect în analiza rezultatelor regresiei ţine de calitatea 
ajustării. 


Calitatea ajustării 


Pentru a analiza calitatea ajustării se pot folosi, atât metode numerice, cât 
şi metode grafice. Metodele grafice (folosite în special în cazul unui singur 
predictor) se referă, în mare parte, la analiza reziduurilor, analiză care aşa cum s- 
a văzut în prima parte a acestui paragraf, se poate realiza şi numeric. Metodele 
numerice utilizate în analiza calităţii ajustării se bazează pe interpretarea câtorva 
statistici. 
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Analiza reziduurilor 


Pe lângă verificarea ipotezelor liniarităţii, studiul reziduurilor poate fi 
folosit şi în cadrul altor modele de regresie, în vederea reperării observaţiilor 
aberante(outlieri). În prima parte a paragrafului, s-a văzut deja instrumentarul 
folosit în analiza reziduurilor. 

Astfel, dintre mai multe ajustări (în regresii cu un singur predictor, liniare 
sau nu), se va prefera aceea în care reziduurile sunt aleator împrăştiate în jurul lui 
zero, fără a comporta o tendință. 

În acelaşi sens, se poate face şi comparaţia curbelor ajustate, în raport cu 
norul statistic. Pentru eliminarea observaţiilor aberante, se poate folosi, de 
exemplu, testul fundamentat pe reziduurile studentizate şi pe statistica (12.4.1) 
sau (12.4.2). Un reziduu prea mare poate indica o valoare aberantă, dar o valoare 
aberantă nu are neapărat reziduul mare. Un alt criteriu care să desemneze valorile 
aberante ar fi cel bazat pe intervalul de încredere (12.4.4). Reziduul pentru care 
intervalul nu conţine valoarea zero indică o valoare aberantă. 


Influenţa observaţiilor 


Am văzut cum poate fi eliminată o observaţie aberantă. Să vedem acum 
care ar fi influența unei astfel de observaţii, în cazul în care ea ar rămâne în 
model. 

Definiţia 12.4.3. Dacă notăm cu >, valoarea ajustată(prezisă) pentru y, 
(definită în formula (2. 1.10), care se obține atunci când este omisă observaţia a 
i-a, vom numi reziduu prezis, valoarea >; — 3). 


Conform cu [29], se poate arăta că 


aşadar observaţiile pentru care h,; e mare şi/sau reziduurile sunt mari (observaţii 
aberante), duc la previziuni suspecte, căci y; — >, va fi mult diferit de zero. Ca 


o măsură a puterii de prezicere a modelului, se cunoaşte statistica 


2 
PRESS = SI; = (12.4.9) 
il e (4. 


O valoare mică a statisticii indică o putere mare de prezicere. Astfel, 
pentru o bună prezicere, trebuie eliminată influența observaţiilor aberante (e, 


mare) sau cele care au /, mare. Influenţa observaţiilor asupra estimatorilor este 
dată de distanța lui Cook, 
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(a- ac) ea ac) _1 sn Bull 
D= Z a 2. (24.10) 
ps p  l-h,; ps 
Aici, > =Xa» a este estimatorul obținut prin eliminarea 


observaţiei i, iar celelalte elemente au aceeaşi semnificaţie ca în paragraful 12.3. 
O observaţie se consideră a avea o influență anormală, dacă D, > 1. 


Analiza estimațiilor obţinute 


Estimatorul a este determinat cu mai multă acuratețe, atunci când 
intervalele de încredere (12.3.10), pentru coeficienţi, sunt mai restrânse. 

În continuare, vom prezenta câteva statistici care pot fi folosite pentru 
evaluarea şi de asemenea, compararea mai multor modele. 


Coeficientul de corelaţie multiplă 


Pentru a putea face legătura între acest coeficient şi coeficientul de 
corelație liniară multiplă, vom aminti mai întâi definiția acestuia. 


Definiţia 12.4.4. Se numeşte coeficient de corelaţie liniară multiplă, parametrul 


m ămanăt at) stpr[ Sac) (12.4.11) 


ai i=l 

unde r este coeficientul de corelaţie liniară simplă, definit în formula (12.4.5). 
Coeficientul de corelație liniară multiplă, de selecţie (eşantionare), se va 

nota cu Plc, 0 pna eu) şi este dat de 


ia) sup Sa) (12.4.12) 


ai i= 


În cazul particular când p=1, se obţine valoarea absolută a 


coeficientului de corelaţie liniară simplă. În [30], se demonstrează că, dacă » 


este valoarea ajustată a lui y (precizată în Definiţia 12.2.4.), dintr-un model de 
regresie liniară cu termen constant, atunci 


Porta ec po) (3). (12.4.13) 
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Altfel spus, metoda celor mai mici pătrate determină acea combinaţie liniară 
între variabilele exogene, pentru care corelația cu variabila endogenă este 
maximală. In plus, se poate demonstra că 


Plast ps), (12.4.14) 


sau într-o altă formulare 


2 


a Li ||2 zi 
= = 


p- bă 


P(x) (12.4.15) 


Se poate afirma atunci, că coeficientul de corelație liniară multiplă 
reprezintă proporţia în care variația lui Y este explicată prin regresia liniară pe 
ĂLA ati de dă cu termen constant. Are loc relația 


0 < Plc cae) FE (iata 3 1, o valoare apropiată de unu fiind o 


posibilă acoperire a faptului, că modelul liniar este potrivit pentru a explica 
variabila Y. Pentru a realiza inferența asupra estimatorului 7, se foloseşte 
statistica de tip Fisher Snedecor, cu p-—l şi n-— p grade de libertate, 


pi e E (12.4.16) 
V 


şi se emite ipoteza nulă, r=0, care este echivalentă de fapt, cu ipoteza 
&, =0,k =1,p, &, oarecare, ipoteze ce infirmă regresia liniară. Ipoteza nulă se 
va respinge, dacă valoarea calculată a statisticii (12.4.16) depăşeşte cuantila 
corespunzătoare legii Fisher-Snedecor şi pragului de semnificaţie p. Totuşi, 
chiar dacă £ =1 şi valoarea reală r este semnificativă (A, : r z 0), acest lucru 
nu indică neapărat o corelație reală. Spre exemplu, în cazul regresiei simple, 
aceste situaţii cu privire la 7 şi r pot apărea, ca urmare a unei corelaţii paralele 
pe care, atât variabila y, cât şi variabila x, o poate avea cu o a treia variabilă. 
Pentru a elimina influența acestei de-a treia variabile, se poate calcula un 
coeficient de corelaţie parțială, cu formula 


? E Lane _ LE La: 
yx.z 12 12 
1=P-Al=r 
yz Xz 


formulă ce poate fi extinsă şi în cazul regresiei multiple. 
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Testul bazat pe r”, prezentat mai sus, este unul de semnificaţie al 
coeficienţilor de regresie în ansamblul lor şi în acelaşi timp(prin 7), al 
semnificației regresiei liniare cu termen constant, test folosit în analiza 
rezultatelor regresiei. Spre exemplu, în Matlab, se întoarce ca şi informație de 
regresie, valoarea calculată a statisticii F şi p —valoarea asociată acestei statistici, 
adică probabilitatea critică, 


C = [E „AR RR [00 REA (12.4.17) 


Dacă c<g, p prag de semnificaţie, se respinge ipoteza HI. 

Deoarece Fr, dat prin (12.4.13), s-a definit doar pentru y rezultat din 
modelul liniar cu termen constant, nu vom putea vorbi de aceste elemente, în 
cazul unui model de regresie liniară oarecare. Pentru modelul de regresie liniară 
fără termen constant, se pot folosi testele F de semnificație asupra unui 
subansamblu al coeficienţilor, precum şi testul T asupra fiecărui coeficient în 
parte, teste prezentate în paragraful 12.3. Un test pentru ansamblul coeficienţilor 
se poate face şi pentru modelul de regresie liniară fără termen constant, folosind 
statistica de tip Fisher-Snedecor, cu p şi n — p grade de libertate (vezi [29]): 


bă 


4 
fa lua) (xha-a) . 

Totuşi, atât pentru modelul liniar fără termen constant, cât şi pentru un 
model de regresie oarecare, se poate defini o caracteristică asemănătoare cu r, 
caracteristică pe care o vom numi coeficient de corelație multiplă(oarecare). 
Definiţia 12.4.5. Numim coeficient de corelaţie (determinaţie) multiplă 
(oarecare), parametrul definit prin 


S2 
Rep =1-, (12.4.18) 
Sr 
unde 
E 2 
Sa = 5 — ») „sumă de pătrate totală, 
i=l 
(12.4.19) 
Sa = (, —), ji „ sumă de pătrate reziduală (indusă de reziduuri), 


iar ) este valoarea ajustată (prezisă) a lui y, prin modelul considerat. 
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Aşadar, coeficientul de corelație multiplă se calculează cu formula 


n zi 2 > 
Sb ->] 


2 


(12.4.20) 


i=l 


Mărimea R” reprezintă o măsură a calității ajustării datelor, prin modelul 
de regresie oarecare, în urma căreia rezultă valoarea ajustată(prezisă), y. 
Această mărime se poate folosi pentru a compara mai multe ajustări diferite şi 
poate fi calculată, pentru orice model de regresie, chiar şi pentru cele 
neparametrice. Totuşi, în [30], Stapleton atrage atenţia, că R” bazat pe scări 
diferite nu sunt comparabile. Această observaţie se referă la cazul când pentru 
ajustare e necesară o transformare. De exemplu, R"(, y) se poate compara cu 
R:(5.,y), dar nu cu R(z,2), dacă z= s(), 2, valoarea ajustată a lui z, din 
modelul liniar al lui z pe x, y, valoarea ajustată a lui y, din regresia lui y pe x, 


3 g(2). O valoare mare a lui R? va indica o mai bună apropiere a modelului 
faţă de date. Acest lucru se poate vizualiza şi grafic, pentru modelul cu un singur 
regresor. Din formula (12.4.20), se observă că R” poate lua şi valori negative, 
valoarea maximă fiind |. 

Acest parametru este cunoscut în literatura de specialitate, doar sub 
denumirea de R-pătrat. Am preferat să-l numim aici coeficient de corelație 
multiplă (oarecare), deoarece atunci când y provine dintr-un model de regresie 
liniară cu termen constant, R* coincide cu coeficientul de corelaţie liniară 
multiplă, 7?, din formula (12.4.15). Într-adevăr, pentru modelul liniar cu termen 
constant are loc regula de adunare a varianţelor (ANOVA), 


n n n 


Sb >) 50-53 5bi-o) (12.4.21) 


i=l i=l i=l 


sau altfel, 


= (12.4.22) 


-> 
sau încă, 


s2-s2 =|p- | (sumă indusă de model). (12.4.23) 
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În general, această regulă nu are loc, de aceea prima parte a formulei 
(12.4.15) nu este valabilă pentru R” şi deci, R” z 7”, diferență confirmată şi de 
faptul că în general, R” poate lua valori negative (mai precis pentru modele fără 


termen constant), în timp ce 7” nu poate. Totuşi R” şi 7” au aceeaşi 
2 2 


T R 
2 


) în care un model 
T 


semnificație şi anume, precizează proporția, | 
explică bine datele, numai că P* se referă strict la modelul liniar cu termen 
constant. Spre exemplu, o valoare de 0,97 a lui R? ne arată, că modelul din care 
rezultă y acoperă variabilitatea observaţiilor, în proporţie de 97%. 

O mărime asemănătoare cu R” este şi raportul de determinaţie( corelaţie), 
040.9) 
40.9 
liniară simplă. În general, raportul de corelaţie arată proporţia în care factorul X 
explică variabila Y , neprecizând forma corelaţiei, în timp ce coeficientul de 
corelaţie arată proporţia în care factorul X (unidimensional) explică variabila Y, 

prin intermediul unui anumit model de regresie. 

Pe lângă R”, tot ca şi măsură a calităţii ajustării, se foloseşte o variantă 
ajustată a sa. Necesitatea acestei ajustări rezidă în faptul că R? nu este un criteriu 
absolut al calităţii ajustării, în cazul când se compară două modele cu un număr 
diferit de parametrii. Astfel, dacă p creşte în regresia liniară, spre exemplu, 
implică faptul că în model s-a inclus o nouă variabilă, ceea ce face ca S;, să 
scadă şi implicit, R să crească artificial. 


>0, care coincide cu R” şi cu P” (a se vedea [29]), pentru regresia 


Definiţia 12.4.6. Se numeşte coeficient de corelaţie ajustat, parametrul 


Re PSI za)! (12.4.24) 
n-p 


Astfel, factorul n-— p corectează modificarea artificială a lui R”, odată 


—=2 
cu modificarea lui p. Ca şi în cazul lui R”, o valoare apropiată de 1 a lui R va 


i De cau PRR SA eva ia 
arăta o bună ajustare, R fiind un criteriu bun pentru modele cu un număr diferit 
de parametri. 

Alte statistici care măsoară numeric calitatea ajustării (pe lângă R? şi 


R) sunt S; din formula (12.4.19) şi s din formula (12.3.7). Statistica S, este 
cunoscută şi sub denumirea de sumă de pătrate datorată erorilor şi măsoară 
abaterea totală a variabilei Y, de la model. O valoare apropiată de zero indică o 
bună ajustare. Statistica s, numită şi eroare standard a regresiei, este rădăcina 
pătrată a erorii medii pătratice, întâlnită sub notația MSE sau RMS (media 
pătratelor erorilor). O valoare a lui s apropiată de 0 indică o bună ajustare. Toate 
aceste statistici pot fi definite şi pentru alte modele decât cele liniare. 
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Odată stabilit şi validat modelul de regresie, ne interesează problema 
previziuni. 


Intervale de încredere pentru previziune 


Pe lângă intervalele de încredere pentru previziune, pentru o nouă 
observație, vom prezenta aici şi intervale de încredere pentru medie (pentru 
funcția de regresie /), pentru a le putea compara. De asemenea, în literatura de 
specialitate, se iau în calcul, atât intervale simultane (pentru x oarecare), cât şi 
intervale nesimultane (pentru o singură valoare specificată, x, ). Vom considera 


aici doar intervale nesimultane. 
Cazul regresiei liniare (fără termen constant) 


Presupunem că modelul y=xa+s£, ee N(6,o?1), a fost validat şi că 
ne interesează estimaţii asupra unei noi valori, yg, a variabilei Y, date fiind 
valorile x, Xo25---5X0p» ale variabilelor X,, X,,...„.X',, adică ne interesează să 


previzionăm o valoare a lui y(necunoscută). Avem 

Vo = Oas: ff pdtop + Ea = Xa + Ey (12.4.25) 
sau folosind modelul ajustat prin cele mai mici pătrate, 

Yo = iXoi Feet dpXop tEo = Xa + eg. 


Apar aşadar, două tipuri de erori în estimarea previziunii. Una se datorează noii 
erori £, cu care valoarea y, intră în model, iar alta se datorează erorii cu care s- 


a estimat ca. Sigur, în cazul în care dorim să estimăm media 
Ex = x, = flx)= xp , atunci eroarea este mai mică şi se reduce la eroarea 


indusă de a . Folosim notația 
aaa, (12.4.26) 


pentru a desemna previziunea punctuală şi dăm în continuare, intervalul de 
încredere pentru 


Yo 2 X40 + E, (previziune), 
respectiv pentru 


flx,)= E(r|x => x,)= xia (medie). 
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Interval de încredere pentru previziune: 


Pl host o 1 x (xx x <y <Porst 1+x(xx) x, |=1-o. 
n-p,l nopil-z 


(12.4.27) 


Interval de încredere pentru medie: 


d; — i AR e afet fee) ae e Flo) Dat LN o let (ace) ae, =]=gi 
2 22 
(12.4.28) 


În ambele intervale, s, x, a şi t au semnificaţia precizată deja în acest 
capitol. Se observă că intervalul pentru previziune este mai larg, datorită erorii 
suplimentare care intervine prin £. În cazul modelului liniar cu termen 


constant, intervalele sunt aceleaşi, diferă doar forma lui x, şi x, care vor conţine 


şi un 1, respectiv o coloană de 1 (a se vedea [29], [30]). În cazul regresiei liniare 
simple, când funcția ajustată şi intervalele pot fi vizualizate grafic, avem 
următoarea situație: 


Avem aşadar şi vizualizarea faptului că intervalul de previziune este mai 
larg, curbele corespunzătoare încadrând, pentru acelaşi gp, curbele de la 
intervalul pentru medie, care la rândul lor, încadrează dreapta de regresie. Dacă 
pe grafic ar fi vizualizate şi datele, s-ar vedea că intervalele de încredere pentru 
previziuni includ punctele. Ca orice interval de încredere şi intervalele de 
previziune pot fi instrumente în evaluarea calității regresiei, acuratețea 
previziunii fiind cu atât mai bună, cu cât intervalul este mai mic. Intervalele 
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simultane sunt asemănătoare celor nesimultane, diferența fiind că se utilizează 
distribuţia Fisher-Snedecor, în loc de distribuția Student. 


Exemplul 12.4.7. Reluând datele din Exemplul 12.2.8, ne propunem să estimăm 
punctual şi prin interval de încredere de tip 95% rata rentabilităţii acțiunilor 
respective corespunzătoare unei rate a pieței de 2%. 


Soluţie 

Calculând previziunea punctuală obţinută pe baza modelului din 
Exemplul 12.28, avem y(2)= —1,76+1,13-2= 0,5, în timp ce o evaluare a 
formulei (12.4.27) duce la intervalul de încredere de tip 95% pentru previziune, 
(-4,42; 5,39). 
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Capitolul 13 


Statistică Bayesiană şi noţiuni de teoria 
credibilităţii 


13.1. Statistică Bayesiană 


Un asigurator are un contract care se derulează pe mai mulți ani. Sumele 
de bani plătite clienţilor au fost X1,X2,...,X,. Ținînd seama de această experienţă, 
care ar fi cel mai bun principiu de calcul al primei de asigurare pentru anul t+1? 

Pentru asigurator, clientul este un risc, X. 

Problema ar fi : cum am putea modifica prima de asigurare h(X) în aşa fel 
ca să țin seama de experienţa anilor trecuți? 

Nefiind precis formulată, aceasta NU este o problemă matematică. 

O problemă oarecum mai abordabilă ar suna astfel: în teoria asigurărilor, 
media EX se numeşte premiul brut sau prima brută. La acesta se mai adaugă 
diverse sume care ar trebui să țină seama de profit, de cheltuieli de regie precum 
şi de alte lucruri ce nu ţin de obiectul studiului nostru. 

Problema de bază este găsirea repartiției „adevărate” a lui X. 

În statistica parametrică clasică se presupune că repartiţia Fx aparţine 
unei clase de repartiţii depinzînd de un parametru necunoscut 0 e E. De 
exemplu, putem crede că X = Poisson(0) sau X = Binomial(n,p), sau X = Exp(a). 
În primul caz am avea o familie depinzînd de un singur parametru, iar în al 
doilea de una depinzînd de doi parametri (căci 0 = (n,p) !) . Pentru a merge mai 
departe ar trebui găsit adevăratul 0. Dacă suntem dispuşi să credem că 0 nu se 
modifică la rîndul lui în timp, am putea privi atunci experiența acumulată X 
=(X1,...„Ă) ca o selecție de volum t dintr-o populaţie Fe. Caz în care s-ar pune 
problema estimării lui 6. 

Dacă 0 ar fi unidimensional, am putea încerca să găsim intervale de 
încredere pentru 0, cu un anume risc asumat a. Acesta este punctul de vedere al 
statisticii parametrice. Ea se foloseşte dacă dispunem de multe date. 

În acest capitol vom folosi însă o altă abordare, şi anume cea Bayesiană. 
Parametrul 9 «e £ se numeşte factor de risc. Ideea de bază în abordarea 
bayesiană este că , necunoscînd valoarea adevărată a lui 6, e ca şi cum factorul 
de risc 0 ar fi la rândul lui o variabilă aleatoare. O vom nota cu 0. Formal, 
avem un spațiu probabilizat pe care avem definit un vector de observaţii X 
=(X1,...„X) şi o variabilă aleatoare O cu valori în E 
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Desigur că apar unele probleme tehnice: va trebui ca spaţiul parametrilor 
E să fie organizat ca un spaţiu măsurabil (£,E). De obicei aceasta nu este o 
problemă, în cazurile clasice. De exemplu, în cazul repartiţiei Poisson sau 
exponențiale E = [0,%0); la binomială este Nx[0,1] care se organizează în mod 
natural ca spaţii măsurabile cu o-algebra mulțimilor boreliene B([0,%)) în 
primele două cazuri sau cu P(N)BB([0,1]) în al doilea. La repartiția normală 
N(pu,67), E = R x (0,0), etc. 

Putem avea o idee despre repartiția factorului de risc, o credință. Aceasta 
se numește repartiţia apriori a factorului de risc 9. În limbaj matematic, 
repartiţia apriori este repartiţia iniţială a lui 0. În cele ce urmează ea va fi notată 
cu U. Deci U(B)>=P(0 e B). 

Dacă parametrul O ia valoarea 0 , atunci repartiția selecției noastre X ar 
trebui să fie Q(0). Acesta se numeşte modelul. Deci pentru fiecare 0 e E , Q(0) 
este o repartiție pe MR” Aceasta este în definitiv repartiţia condiţionată a lui X 
ştiind că 0 =. 

Pe scurt o abordare Bayesiană înseamnă o repartiție apriori a 
parametrului şi un model. Ideea este să obţinem din experienţă o ajustare a 
repartiţiei apriori, numită repartiţia aposteriori a parametrului 0. 

Modelul este de fapt o probabilitate de trecere de la mulțimea E a 
parametrilor la mulţimea N! a rezultatelor. Atunci ştim de la capitolul privind 
simularea variabilelor aleatoare că repartiţia vectorului (9,4) este UBO iar 
repartiţia lui X este VO. Amintim că cele două operaţii se definesc astfel 


URO(C) = [0(0,C$)dU(0) v Ce Ex ' măsurabilă (13.1.1) 


UVO(B) sii URO(ExB) = |O(0, 8)4U(0) (13.1.2) 


Exemplul 13.1.1. Să presupunem că 8 = U([0,1]) iar X = Binomial(1,9). Mai 
explicit, modelul este următorul: dacă adevărata valoare a lui 8 ar fi 8 =p e 
[0,1], atunci PA61,..., X= e) ar trebui să fie pp)" unde ve) = |41sj < 
ț le; = 1 | iar v(0,2) = | “1sj <t le; = 0) |=z — N(L,6). Cum afectează variabila 
aleatoare N(1) repartiţia inițială a lui 9? 


Exemplul 13.1.2. O generalizare. 8 = U(0,1) iar X = Binomial(n, 9) unde n este 
presupus cunoscut. Atunci P(X=x,...„X = x) = Cpi...Cp0" (1-0) "..0" (1-0) "= 
C*C*...C*9S (1-8)"5 unde S= S(a) = x +... +. 


În Exemplul 13.1.l, repartiția lui X este U(0,1)0 unde 0(0) = 
Binomial(1,0). Deci din (13.1.2) avem 


Pă=0=] 0%(1-0)'540 = B(S+ lr-S+1D (13.1.3) 


0 
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unde e e Z> iar S = v(1,e)este definit în Exemplul 13.1.1. Funcţia B este funcția B 


T(m + T(n +1) _ min! Rezultă că P(X = e) = 


IES a PD E) (Ci iza) „aaa 


SI(r—sS))! 
(£+D! 
În Exemplul 13.1.2 diferența este că X este U(0,1)0 unde 0(6) = 
Binomial(n,0) deci 
1 
PX=x) = | C3ce..Ciesa-0y"540 = CHCE..CYB(S+1, mt-S+1). (13,1.4) 


0 


Rezumînd cele de mai sus putem concluziona : într-un model Bayesian U 
este marginala pe spaţiul parametrilor a repartiției U8O a vectorului (9, 4) 
format din parametrul aleatoriu O şi selecţia X, (adică o probabilitate pe (£xR)) 
modelul Q(0) este repartiția selecţiei condiționată de valoarea pe care o ia 
parametrul.(o probabilitate de trecere de la E la %') iar a doua marginală, cea de 
pe Rt este UQ — repartiția selecției X. Dacă, aşa cum se întîmplă în aplicații, O 
este la rîndul lui un spațiu standard Borel, teorema de dezintegrare o putem 
aplica şi marginalei a doua. Deci există o altă probabilitate de trecere U, , de data 
aceasta de la Y' la E astfel încît U = U.(UO) . Din punct de vedere probabilistic O* 
reprezintă repartiţia lui O condiționată de eşantionul X . În jargonul Bayesian, U, 
este repartiția aposteriori a parametrului O după observaţia X. 

Sensul ar fi că U,(x,4) = P(O e A | X=x). 

În anumite condiţii, suficient de largi pentru statistică, există formule de 
calcul a repartiției aposteriori U.. 

Să presupunem că repartiția parametrului O, deci U , admite o densitate 
față de o măsură o-finită 1. De asemenea, presupunem că şi repartiția observaţiei 
X condiţionată de O = 0 este absolut continuă faţă o altă măsură o-finită v, adică 
admite o densitate g faţă de v . Atunci se poate calcula repartiția aposteriori a lui 
0. 


Propoziția 13.1.3. Presupunem că E este o mulțime boreliană dintr-un spațiu 
euclidian. În plus, presupunem că 


(). U = u-t, unde Teste o măsură O-finită pe E; 
(îi). 0(0)=gq(0)-v unde veste o măsură o - finită pe N! 
Atunci 
Po (0,4) = fo x: (T8v) cu fox (0) = q(0)u(0) (13.1.5) 
Po! fu: v unde fu (9 = [a Exu0)art0) = [7 oxx(0x) d(0) (3.1.6) 
Cita) a Ne uite 300) = D039) (3.1.7 
[a(o.x)u(o)de(o) 


Notaţii standard. O notație mai sugestivă pentru q(0) este cea folosită în 
statistică: fx| e - o. Deci modelul este că, dacă parametrul O ar lua valoarea 6, 
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atunci densitatea lui X față de v ar trebui să fie /x| o-e. Atunci densitatea comună 
a vectorului (0, X) față de r&v este fe, x iar densitatea parametrului O în ipoteza 
că că X = x este fol| =, . Reformulînd cu aceste notații standard avem 


densitatea lui (9,%) este fox (0, 2) = ful o-o(x)fe(0) (13.1.8) 
densitatea lui X este fi (x) =] fo x (x,0)dz(0) (3.1.9) 
densitatea aposteriori a lui O dată de rezultatul x este 

fi 0,X (0,x) 


fel 2=40) = — (13.1.10) 
futa) 

Demontraţia se poate găsi, de exemplu, în Gheorghiță Zbăganu, Metode 

matematice în teoria şi actuariat, Bucureşti, Editura Universităţii 2004, pp 236. 


Continuare la exemplele 13.1.1 şi 13.1.2. 

Cu notațiile standardizate de mai sus avem 

La exemplul 13.1.1: £ = [0,1], 1 = U(0,1), u(0) = 1, v = Card(Z,) este 
măsura cardinal pe Zi, densitatea modelului este fi! o-o (3) = 0(1-0)*% cus 
=| (si st |x= D=. 
Atunci 
i Jox (03) = E(1-0)"1o(0) 


i Ju 0)= | q(0.)u0)d(0) = B(S+ rs) SS) 
(£+D! 
E fel x=x40) CITRIC TĂI (1-0) 


Recunoaştem aici că repartiția aposteriori a parametrului O este o 
repartiție Beta(S$+1,r-5+1). 

Interpretarea: în urma unei experiment în care au apărut M de „I” şi N 
de „0” şi în care apriori nu aveam nici o idee preconceputa asupra lui p credința 
noastră asupra parametrului 0 ar trebui să fie dată de densitatea aposteriori (0) = 
Buun (0). 

La exemplul 13.1.2: E, r,u sunt aceiași, dar v = Card(Z,)); 
- fii e=o (2) Ca) 0%1-0)” cu Ca) = CACE...Ci 
- fox(02) = Ca) 0-0)" Lont0) 


CUG Ce : 
- X) > DP (vezi (1.1.10 
fi 0 (nr + DES (Vezi ( ) 
l i Si RE 
-  felx == (0) = 0%(1-0)"% deci repartiţia aposteriori a 


B(S + Lnr—S$+1) 
parametrului O este Beta(S$+1, nt-S+1) 


Observaţie 13.1.4. Dar dacă aveam o idee preconcepută? De exemplu, dacă 
am fi crezut că p = a? Atunci statistica Bayesiană nu ne-ar fi de nici un 
folos. Să presupunem că noi avem o credinţă apriori că 0, parametrul nostru 
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are repartiţia O - fi 9 4 
Dir "Po mos e Bi 

stocastică cu n linii şi 2' coloane: 0(0px) = 0,"%(1-0,)'”0 . Cu notaţiile din 

Propoziția 13.1.3 am avea E =(8,,...,0,) c [0,1], 1= Card(B) , up) =p,v= 

Card(Z»), fox (0) = 0;9(1-0,)"9pj iar 

3) ie! -0 E Ma) | 

fo xx (0,) = : : 


Xe (ja 0)“ p, 
i=l 


În cazul particular în care n = 1 (deci credem orbeşte că O = 8,) atunci 
suma de la numitorul din (13.1.11) coincide cu numărătorul, deci folx-. (00) =1. 
Ceea ce înseamnă că indiferent ce ne spune experienţa, vom continua a crede că 
0=0,! 


) Atunci O ar fi devenit o matrice 


(13.1.11) 


jug 


explicative, cel mult poate anula unele din ele — sau să le facă mai neverosimile. 


Exemplu 13.1.5. Un asigurator are în perspectivă un contract format din 
riscuri repartizate binomial. EI ştie că X, = Binomial(N, m), dar nu ştie nici pe N, 
nici pe 1. De exemplu X. pot fi piesele rebutate dintr-un lot de N piese. Mai ştie 
că în decursul derulării contractului aceşti parametri nu se schimbă. Pentru a 
avea o idee ce primă de asigurare să ceară, are la dispoziţie un istoric al 
numărului de rebuturi X,....X,. Experienţa anterioară îl face să creadă că că N 
şi 7 sunt independente şi că N = Sa,e, iar m = p-A unde p:[0,1] — [0,0) este o 
n>l 

densitate . Dacă nu are nici o idee despre p- lucru destul de neverosimil - va lua 
P= lo 

Deci 

E = Nx[0,1], 9= (N), 

7 = CarduQ), 

0 = (n,p), fo(mp) = a„p(p) , (repartiția apriori) 

File-np) (2) = „Cta, B)p'(1-p)”” cu Ca, 0) =Ctan) = CiCR...Cii 

(acesta este modelul propriu zis!) 

Jox (0,2) = onp(p)Cla » 0)p(1-p)”” 

Repartiția lui X este o mixtură de binomiale. Putem scrie 

fox (0.2) = p(p)ou Cta, 0)p'O-p) (13.1.12) 
unde M(x) este media aritmetică a primelor t observaţii, tM() = xi + ... + x,. Fie 
X* = Max (1... Observind că n < x* = C(a,n) = 0 şi înlocuind, obținem din că 


fi05= [aoxutedazto) = Xa, Ce, mp ppvea- pr ap (13.1.13) 
n=x* 0 
ae “Obdiiizi a 


(dacă m = U(0,1) atunci fi (9 = Sa, pri 


3 ) iar din (3.1.13) 
2 (nt + IDC 
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MD _ pt M (>) 

folezs (up) = = p(p)o„C(x,n)p "U-p) (13.1.14) 
Data] pa pe pp)dp 
ka 

a,C(x,mps( =>, p)”S 


E Ceara 
Dai S 
EA (hr + DC, 


(dacă n = U(0,1) atunci fo|x-a (n,p) = 


Observăm ceva de bun simţ, pentru care nu avem nevoie de multă ştiinţă 
de carte: dacă n <x, atunci din (13.1.17), folx- (nsp) = 0. Nu o să considerăm 
posibil ca N să ia valori mai mici decât x*! 


Definiţia 13.1.6. Dacă q:E — R este o funcţie măsurabilă, variabila aleatoare 
E(0(0) x) se numeşte în limbaj bayesian estimatorul Bayesian cu cele mai mici 
pătrate al lui p(0). 


Propoziția 13.1.3 are drept corolar o formulă de calcul pentru E(o(0) IX, evidentă 


datorită formulei de transport: 


Propoziția 13.1.7. Avem 


[e(9)/x le-o ()u(0)dr(9) 


E((0)|X= x) = | fs leo (u(o)de(o) 


(13.1.15) 


Să presupunem că variabilele aleatoare X, sunt toate identic repartizate 
pentru fiecare valoare posibilă a factorului de risc 8 . Fie 


u(0) =E(%.10) (13.1.16) 


Aceasta este cea mai bună aproximare pe care o putem face pentru Xr în 
sensul celor mai mici pătrate. În cele ce urmează nu vom modifica notația: u(9) 
va avea mereu aceeaşi semnificaţie. 

Sensul precis este că dintre toate funcțiile w(9) cu care am dori să 
aproximăm pe X, în spaţiul L”, cea pentru care distanţa este minimă este u(0). 

Ceea ce ne interesează în actuariat este mărimea 


E(u(0)|X) notată cu 20. (13.1.17) 


Este mai puțin evident că, în anumite ipoteze, e(X) este şi cea mai bună 
aproximare pe care o putem face asupra premiului brut de asigurare viitor (adică 
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pentru X, ) ţinînd seama de modelul nostru bayesian şi de experienţa acumulată, 
Ă 


Definiţia 13.1.8. Două variabile aleatoare X şi Y se numesc condiționat 
independente faţă de Q dacă PX e 4, Y e B| 9)=P(X e A)PY e B| O ) pentru 
orice A şi B mulţimi boreliene. 


Exemplul 13.1.9. În exemplele 13.1.1 şi 13.1.5 am presupus tacit că 
observaţiile (XA), <<. sunt condiționat independente. Altfel nu puteam să spunem 
că PX, = Xioocsă > x) = PĂI = x)...P(X = x). Dacă X şi Y sunt condiționat 
independente, nu rezultă că sunt independente. Într-adevăr, să spunem că X.Y. O 
sunt discrete. Atunci 

PX=i, Y=)=EPX=i, Y=jl 9)=E(Pă=ilo)PY=jl0)) 

z E[PX =ui |O)JELP(Y =] 9)]. De exemplu, să zicem că (X.Y | 0) = 
U((0,9+1)), 9 = U(40,1)). Atunci PX = 0, Y= 0) = [P(r=0, Y=0l0=0)- 
P(X=0, Y=0l0=1]2=[ 4 +0]2=1/8iar PY=0) = P(X=0)=[P(X=0l 0 
= 0) +PX=0| 9=1)]2 =(5+0)2= "4. Produsul este 1/16 şi nu 1/8. 


Propoziția 13.1.10. Fie X şi Y două variabile aleatoare condiționat 
independente de 8. Atunci avem 


EA4D 0.) = EADLo) (13.1.18) 


În consecință 


EAW | = EEAP Lo) (13.1.19) 


Corolarul 13.1.11. Presupunem că observaţiile X, sunt condiționat independente 
fiind dat Q. Atunci EX | X....X) = E(u(0) | XX) = 20). 


Demonstraţie 
Este de fapt relația (13.1.19) unde în loc de Y avem X,u iar în loc de X avem 
vectorul X= (Xe . 


Principial, e(X) se poate calcula, dacă ştim repartiţia lui O condiţionată de 
X . O ipoteză destul de optimistă. 

În Exemplul 13.1.2 — deci şi în exemplul 13.1.1 — cunoaştem această 
repartiție: este Bs+u, us . Cum X, sunt binomiale condiţionat de O (adică PX, = 
j|9) = Binomialn.9)(4j)) — rezultă că u(0) = no. Atunci g(4) = E(n90lă) = 
m 


nE(0 | X) . Dar media unei variabile aleatoare Y = fu, este de unde obţinem 
m 


+n 
estimatorul bayesian pentru X,.. (premiul brut) ca fiind 
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n(S +1) 
nt +2 


a = (13.1.20) 


Să notăm cu M = S/t media aritmetică a observaţiilor ( se ştie că M este un 
estimator nedeplasat şi eficient pentru EX, în ipoteza că variabilele sunt î.i.d, ceea 
ce nu este cazul!). Vom nota de asemenea în mod consecvent 


m = EX, = E(E(X,|0)) = E(no)=neP (13.1.21) 


(căci am acceptat că 8 = U(0,1)). Cu aceste pregătiri putem scrie (1.1.20) sub 
forma 
g() = zM + (-2m (13.1.22) 


nt 


unde z = , 
nt +2 


q.e.d. 


Observaţia 13.1.12. Relaţia (13.1.21) este foarte atractivă: este simplă şi 
admite o interpretare intuitivă: cel mai bine este să prezicem viitorul sub forma 
unei mixturi între ideile noastre anterioare ( = m) şi experiență ( = M). 
Coeficientul z ne arată ponderea experienţei. Dacă t > %, z— 1, adică e mai 
bine să ne bazăm pe experienţă. Dacă t este mic, atunci este bine de luat în 
calcul şi modelul nostru teoretic. 

Se pune întrebarea : nu cumva mereu g(X) este cuprins între m şi M ? 

Vom da un exemplu că nu este aşa. 


Exemplul 13.1.13. Să presupunem că O = U(0,1) şi că variabilele aleatoare X, 
sunt repartizate U(0,9+1) Presupunem de asemenea că ele sunt condiționat 
independente dacă se ştie 8. Deci 

E = [0,1], 1=1, u(0) = Lo(0) (repartiția apriori) 

0(0) = U(0,9+1) (acesta este modelul propriu zis!) 

fox (0.x) = Lee+pc) Looe+pQ2)... Leoo+00) Lon(0) = Laa(0) unde 

A) = Qer- Li) N Gol) n... (ex) N (0,D) = (ac -1x5) n (0,1) unde 
Xe = XI ANXA. n NI 3 XE XIV Vă 

e (0) = MAD) = (Gea) 0 -D)i 

folx== (0) = Laayf4x) , deci repartiția lui O condiţionată de X este U(A4(2)) 

Apoi u(0) = EX,|0)=0+5 (media unei uniforme pe (a,b) este mijlocul 
intervalului (a+b)/2 ; în cazul nostru a = O şi b = Q+1!) deci g(4) = E(O x) + 
= (AD) + (7 -DD)/2 + W (căci şi repartiția lui O condiționată de X este tot 
uniformă! ) . În concluzie 
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x +l Fi 
: daca x Sl 


* 
XX 


2(4) = daca x,<l<x. (13.1.23) 


; 
x +] 
daca x, >1l 


Pe de altă parte m = EX, = Eu(0) = [+ [= 1. Se poate ca g(ă) să nu fie între m 
şi M: de exemplu, dacă t = 3, x = (1.1; 1.2; 1.9) atunci M= (1.1+ 1.2 + 1.9)/3 = 
1.4 < gta) = (1 + 1.9)/72 = 1.45. 


13.2. Modelul de credibilitate Buhlmann 


Fie X o selecţie de volum t . Variabila aleatoare X,, 1 <r <t reprezintă 
suma pe care asiguratorul a plătit-o în anul r. Bănuim că repartiția acestei 
variabile depinde de un factor de risc, O asupra căruia avem o credință — adică o 
repartiție apriori U= ur 
Definiţia 13.2.1. Vom numi contract un vector (9,X) unde PO" = U şi X = 
(X,....X) reprezintă variabile aleatoare din L” interpretate fiind ca o istorie a 
plăţilor făcute de asigurator la momentele de timp 1,2,...,t. 


Fie p(9) = E, |) 

Ceea ce ne interesează este să dăm o predicție asupra plății viitoare X.. . 
Istoria plăţilor până în prezent (momentul t) este X. 

Ca de obicei, dacă nu facem unele ipoteze suplimentare, nu vom putea 
spune nimic în acest sens. 

Vom face ipoteza că pentru fiecare valoare a factorului de risc O, 
variabilele aleatoare (Xr), <<, sunt independente şi identic repartizate. Atunci şi 
variabilele u„(0) vor coincide. Le vom nota cu u(0). 

Ştim (Corolar 1.1.11) că BX | X1,....X) = E(u(0) |...) = 00 

Aceasta este ipoteza independenţei condiţionate. 

Scrisă precis, cu notaţiile din paragraful anterior, ea devie 


0(0) = F(0)* (13.2.1) 
adică 
PO e Bu....X e B, |0)= PO e 8,10)...PO e 8,10) 
= F(0,B.)....H0,B) V B, e BR), | <r<tr (13.2.2) 


Am văzut că semnificaţia lui g(X) (estimatorul Bayesian exact) este 
următoarea : dacă notăm cu L mulțimea funcţiilor pn: R' — N care sunt măsurabile 


şi au proprietatea că h(X) e L“(0,K „P) atunci 
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| Xe — a) ll2= min ţ m nCOl2lneL) (13.2.3) 
adică 
EU — 809) = min 4 EX —h(9P | ne L) (13.2.4) 


Cu alte cuvinte g minimizează distanța pătratică între X,.. şi A(X). 

Problema este că în cele mai multe modele realiste g este necalculabil. 

Buhlmann a avut ideea să facă un compromis: să caute funcția h afină 
care să minimizeze membrul drept din (13.2.4). Cu alte cuvinte să caute h de 


forma h(x) = cp + <c, x> astfel ca E(X — h(X)) să fie minim. 


Să considerăm funcția p:RxM' — N dată de 
h(co, c) = E(Xu Co CĂ! C2Ăo aaa ei că) (13.2.5) 


Problema de optimizat devine: 
Găsiţi co, e ca h(co,c) = minim (13.2.6) 


De data aceasta problema este simplă. Este vorba de a găsi minimul unei 
forme pătratice convexe. Fiind strict convexă, are optim unic. 
Derivăm h după co şi punem condiţia ca derivata să se anuleze. Găsim 


-2E(Xr — Co — CĂI — GĂ - ăia - că =0 (13.2.7) 


(am derivat sub integrală, deoarece putem aplica criteriul lui Lebesgue de 
dominare: variabilele noastre sunt în L?. Rezultă 


co = E(Xrri — CĂ — Co - să - CĂ). (13.2.8) 
Dar variabilele aleatoare X, , fiind condiţionat identic repartizate, sunt şi 
identic repartizate. Media lor se va nota, ca şi în primul capitol, cu m = EX, = 
Eu(0). Inlocuind în (13.2.7) EX, cu m rezultă 
co = m(l- cr c2-... - 2) (13.2.9) 
Înlocuind în (13.2.5) găsim că avem de optimizat funcția 
p(0) = EU — m cei(X- m) — co —m) - ... -c(Xr m)P (13.2.10) 


Să notăm cu Y, variabilele aleatoare centrate Y. = X, — m. Atunci funcția 
(convexă!) de optimizat devine 


p(c) = E(Yu — ca Pi o - caer 5). (13.2.11) 
Gradientul ei este 
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Grad (0) (c ) = (2E(YA( Ya — C] Y, iai [429 Și aia iC, Yo) srsr (13.2.12) 


Ecuația Grad q (c) = 0 devine 


e BP) = BUY) (1.2.13) 


J>l 


Pe de altă parte, dacă j z r variabilele aleatoare Y; şi Y, sunt condiţionat 
independente deci 


EUY,Y) = EEUY O) = E, oEl o) (13.2.14) 


Dar E(Y,| 9) = Emo) = E05|9)- m= u(0)- m= u(0) - Eu(09) de unde 
rzj > BYY) = Var u(9) (13.2.15) 


Vom nota Var u(0) cu a. 

Dacă însă r = j atunci E(Y,Y) = E(Y,) = E(E(Y?10)) = E(E(-m)l0)) = 
E(ELA-E(,| 0), 0) - mFl9)) = E(EL-u(9))r(u9) - ml) = BELL 
u(9)F|9)) + 2E(Dr-u(9)llu(9)-m]l 0) + E(u(9) - mp) = E(Var, 9) + 2E([x- 
u(9)] | O)lu(9)-m]) + Var u(0)=s2+0+a=a+. 

Am notat E(Var(X, | 0)) cu s*. Cum variabilele aleatoare X, sunt identic 
repartizate, notația este corectă . Altfel ar fi trebuit să punem s, în loc de s. În 
concluzie 


E(5Y) =a+ 58 Vjre (1... (13.2.15) 
Înlocuind în (13.2.12) găsim sistemul 

3 (a + 8s)=a (13.2.16) 

j=l 


care se rezolvă foarte simplu. Adunînd toate ecuaţiile rezultă (ra + sc +... + c)) 


: : ta A i 
= ta de unde suma coeficienţilor S= a +...+c= =. Cum sistemul se mai 
ta+s 
scrie cps? + aS = a , urmează că 
[7 
CSC > SC Z (13.2.17) 
ta+s 


Concluzia finală este 
Teorema 13.2.2. Dacă variabilelele aleatoare (X, =: sunt din L? şi i.id. 


condiţionat de O , atunci estimatorul liniar optim h(20) are forma h(A(1-2)m+ zM 
unde 
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at 


ta + s2 


„a= Var u(0),s= E(Var(%,| 0)) (13.2.18) 


7 


Definiţia 13.2.3 Numărul z se numeşte coeficientul de credibilitate al lui 
Buhlmann. 
EI nu este o statistică , deoarece depinde de trei parametri neobservabili: a 
= Var u(0); m = Eu(0) şi = E(Var(X,]0)). 
Uneori se poate întîmpla să coincidă ca h(%) să coincidă cu (4) — adică 
estimatorul liniar optim să fie chiar estimatorul bayesian optim. 
Pe scurt: dacă avem observaţiile X = (41,...,X)) şi modelul Bayesian 
PX, e Bi....X, e B, |9)= 0(0,8)....0(0,B) VB, e BR), L<r<r 
- O(0) are densitatea /x|o-e- v, probabilitatea apriori cu densitatea U= u-r 
şi notăm E(X,|9) cu u(0), atunci 


|n(0) /o-a(ADu(b)ar(e) 


EX |) (13.2.19) 
| fuio-s(0Duto)arto) 


89 = E(u(0) 4) = 


iar estimatorul Buhlman este A(4) = Mz + (1-2)m cu 


m= EX, M= (At + X)i, 2= — a Var W0), 2 = EVar(ă 9) 
at+s 


(13.2.20) 


Tot demersul de pînă acum ar fi inutil dacă nu ar exista cazuri întîlnite în 
statistică care estimatorul Buhlman 4(X) ar coincide cu e(%) . Dăm acum o 
generalizare a exemplului 1, unde cele două chiar coincid. 


Definiţia 13.2.4. Densitatea fxle-e se numeşte familie exponențială dacă este de 
forma 


felo=s() = p)e”/4(0) (13.2.21) 
unde se subințelege că spaţiul parametrilor E = [0,c0). Se presupune că funcția 
q(0) este derivabilă. 


În acest caz densitatea vectorului X este 


“ăia 2 PSP a (04) 299 unde Si fa bă (13.2.22) 
q 


Să presupunem că densitatea apriori u a variabilei aleatoare O este de 
forma 


-a _—BO 
u(0) = EA) la unde a,fB e [0.%) iar C(a,B) este o constantă de normare. 


C(a,B) 
(13.2.23) 
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În aceste condiţii densitatea aposteriori este 
Jjo-o(20)u(9) 

fola= as (0F 

| foc, (Du Ode) 


= A(o,poe e / q"'B(0) (13.2.24) 


adică este de acelaşi tip ca şi densitatea apriori. Spunem că familia aceasta de 
densități este o familie conjugată. 


Propoziția 13.2.5. Dacă modelul bayesian este familie exponențială, densitatea 
apriori este de forma (1.2.22) şi u(0) = u(oo) = 0 atunci e şi h, definiți prin 
(13.2.18) şi (13.2.19) coincid. 


Un caz particular este dacă modelul este Poisson: repartiția Poisson este 
de forma (13.2.21). Aici măsura v este măsura cardinal pe mulțimea numerelor 
naturale. 

Se punem acum problema de a estima pe baza datelor de observaţie X cei 
trei parametri m, a şi s”. Acum este o problemă de statistică obişnuită: căutăm trei 
estimatori nedeplasați pentru aceste cantități. Ideea lui Buhlman a fost de a se 
apela la mai multe contracte independente de acelaşi tip. 

Un răspuns este următorul: 


Propoziția 13.2.6. Dacă vectorii X; = (X;-i<r<, sunt independenţi şi acceptăm la 
fiecare din ei acelaşi model O, atunci Mo, 5? şi â definiți mai jos sunt estimatori 
consistenți pentru m, s” şi a 


k 
VAR 2, (13.2.25) 
= 
fe at pa DM) Dita, 
Ş2 = 2582, Ș2= 2 = e 13.2.26 
i 233 i. t—1 = ( 
A ZA 
DUM;-MY 
a= A ză (13.2.27) 


Prin M; am notat mediile de selecție ale vectorilor X;. 


Mai mult, 5? şiă sunt estimatori nedeplasaţi pentru s?. Varianţele sunt 
Var(M ;) 


13.228 
. (13.2.28) 


2 
Var($2) = Var), Var(M,) = a + i Var(M) = 


Apare o evidentă deosebire față de cazul î.i.d., cînd aceste varianțe tind la 
O o dată cu creşterea numărului de observaţii, + .De asemenea vedem că nu 
contează aşa de mult t (= istoricul ) cît contează k — numărul de contracte 
independente. 
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Corolarul 13.2.7. Variabila aleatoare 2= 


este un estimator pentru 
âr+ 8? 
coeficientul de credibilitate z care este consistent în k : adică ko > 2—z. 


Observaţia 13.2.8. În general estimatorul 2 nu este nedeplasat, căci nu avem 


motive să credem că o formulă de tipul E ar putea fi adevărată, 


X+Y EX+EY 
chiar în ipoteze restrictive. Dacă X şi Y sunt independente, de exemplu, atunci 
X EX 


EX +Y se poate calcula, este diferit de EX +EY . 
Ca amuzament, dacă X și Y sunt i.i.d. atunci egalitatea este adevărată/ 
Ambele valori coincid, în mod evident, cu 2 ! 
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ANEXE 


Anexa |] 


Valorile funcției Laplace - Gauss 


u 000 Ţoo0r [0,02 [003 [oo [0,05 [0,06 [007 [0,08 |] 0,09 
0,0 0,5000 | 0,5040 | 0,5080 | 0,5120 |] 0,5160 | 0,5199 | 0,5239 | 0,5279 | 0,5319 | 0,5359 
0,1 0,5398 | 0,5438 | 0,5478 | 0,5517 | 0,5557 | 0,5596 | 0,5636 | 0,5675 | 0,5714 | 0,5753 
0,2 0,5793 | 0,5832 | 0,5871 | 0,5910 | 0,5948 | 0,5987 | 0,6026 | 0,6064 | 0,6103 | 0,6141 
0,3 0,6179 | 0,6217 | 0,6255 | 0,6293 | 0,6331 | 0,6368 | 0,6406 | 0,6443 | 0,6480 | 0,6517 
0,4 0,6554 | 0,6591 | 0,6628 | 0,6664 | 0,6700 | 0,6736 | 0,6772 | 0,6808 | 0,6844 | 0,6879 
0,5 0,6915 | 0,6950 | 0,6985 | 0,7019 | 0,7054 | 0,7088 | 0,7123 | 0,7157 | 0,7190 | 0,7224 
0,6 0,7257 | 0,7290 | 0,7324 | 0,7357 | 0,7389 | 0,7422 | 0,7454 | 0,7486 | 0,7517 | 0,7549 
0,7 0,7580 | 0,7611 | 0,7642 | 0,7673 | 0,7704 | 0,7734 | 0,7764 | 0,7794 | 0,7823 | 0,7852 
0,8 0,7881 | 0,7910 | 0,7939 | 0,7967 | 0,7995 | 0,8023 | 0,8051 | 0,8078 | 0,8106 | 0,8133 
0,9 0,8159 | 0,8186 | 0,8212 | 0,8238 | 0,8264 | 0,8289 | 0,8315 | 0,8340 | 0,8365 | 0,8389 
1,0 0,8413 | 0,8438 | 0,8461 | 0,8485 | 0,8508 | 0,8531 | 0,8554 | 0,8577 | 0,8590 | 0,8621 
IN! 0,8643 | 0,8665 | 0,8686 | 0,8708 | 0,8729 | 0,8749 | 0,8770 | 0,8790 | 0,8810 | 0,8830 
1,2 0,8849 | 0,8869 | 0,8888 | 0,8907 | 0,8925 | 0,8944 | 0,8962 | 0,8980 | 0,8997 | 0,9015 
13 0,9032 | 0,9049 | 0,9066 | 0,9082 | 0,9099 | 0,9115 | 0,9131 | 0,9147 | 0,9162 | 0,9177 
1,4 0,9192 | 0,9207 | 0,9222 | 0,9236 | 0,9251 | 0,9265 | 0,9279 | 0,9292 | 0,9306 | 0,9319 
1,5 0,9332 | 0,9345 | 0,9357 | 0,9370 | 0,9382 | 0,9394 | 0,9406 | 0,9418 | 0,9420 | 0,9441 
1,6 0,9452 | 0,9463 | 0,9474 | 0,9484 | 0,9495 | 0,9505 | 0,9515 | 0,9525 | 0,9535 | 0,9545 
1,7 0,9554 | 0,9564 | 0,9573 | 0,9582 | 0,9591 | 0,9599 | 0,9608 | 0,9616 | 0,9625 | 0,9633 
1,8 0,9641 | 0,9649 | 0,9656 | 0,9664 | 0,9671 | 0,9678 | 0,9686 | 0,9693 | 0,9699 | 0,9706 
1,9 0,9713 | 0,9719 | 0,9726 | 0,9732 | 0,9738 | 0,9744 | 0,9750 | 0,9756 | 0,9761 | 0,9767 
20 0,9772 | 0,9779 | 0,9783 | 0,9788 | 0,9793 | 0,9798 | 0,9803 | 0,9808 | 0,9812 | 0,9817 
2-4 0,9821 | 0,9826 | 0,9830 | 0,9834 | 0,9838 | 0,9842 | 0,9846 | 0,9850 | 0,9854 | 0,9857 
22 0,9861 | 0,9864 | 0,9868 | 0,9871 | 0,9875 | 0,9878 | 0,9881 | 0,9884 | 0,9887 | 0,9890 
23 0,9893 | 0,9896 | 0,9898 | 0,9901 | 0,9904 | 0,9906 | 0,9909 | 0,9911 | 0,9913 | 0,9916 
24 0,9918 | 0,9920 | 0,9922 | 0,9925 | 0,9927 | 0,9929 | 0,9931 | 0,9932 | 0,9934 | 0,9936 
2,5 0,9938 | 0,9940 | 0,9941 | 0,9943 | 0,9945 | 0,9946 | 0,9948 | 0,9949 | 0,9951 | 0,9952 
2,6 0,9953 | 0,9955 | 0,9956 | 0,9957 | 0,9959 | 0,9960 | 0,9961 | 0,9962 | 0,9963 | 0,9964 
27 0,9965 | 0,9966 | 0,9967 | 0,9968 | 0,9969 | 0,9970 | 0,9971 | 0,9972 | 0,9973 | 0,9974 
28 0,9974 | 0,9975 | 0,9976 | 0,9977 | 0,9977 | 0,9978 | 0,9979 | 0,9979 | 0,9980 | 0,9981 
29 0,9981 | 0,9982 | 0,9982 | 0,9983 | 0,9984 | 0,9984 | 0,9985 | 0,9985 | 0,9986 | 0,9986 


Anexa 2 


Cuantilele repartiției Student 


gradelprob.| o 75 0.90 0.95 0.975 0.99 0.995 
] 1.000 3.078 6.314 12706 | 31.821 | 63.657 
2 0.816 1.886 2.920 4.303 6.695 | 9.925 
Â 0.765 1.638 2.353 3.182 4.541 | 5.841 
4 0.741 1.533 2.132 2.716 3.474 | 4.604 
5 0.727 1.476 2.015 2.571 3.365 | 4.032 
6 0.718 1.440 1.943 2.447 3143 | 3.707 
7 0.711 1.415 1.895 2.365 2.998 | 3.499 
8 0.706 1.397 1.860 2.306 2.896 | 3.355 
9 0.703 1.383 1.833 2.262 2.821 | 3.250 
10 0.700 1.472 1.812 2.228 2.764 | 3.169 
IEI 0.697 1.363 1.796 2.201 2.718 | 3.106 
12 0.695 1.356 1.782 2.179 2.681 | 3.055 
13 0.694 1.350 1.771 2.160 2.650 | 3.012 
14 0.692 1.345 1.761 2.145 2.624 | 2.977 
15 0.691 1.341 1.753 2.131 2.602 | 2.947 
16 0.690 1.337 1.746 2.120 2.583 | 2921 
17 0.689 1.333 1.740 2.110 2.567 | 2.89 
18 0.688 1.330 1.734 2.101 2.552 | 2.878 
19 0.688 1.328 1.729 2.093 2.539 | 2.861 
20 0.687 1.325 1.725 2.086 2.528 | 2.845 
21 0.686 1.323 1.721 2.080 2.518 | 2.831 
22 0.686 1.321 1743 2.074 2.508 | 2.819 
23 0.685 1.319 1.714 2.069 2.500 | 2.807 
24 0.685 1.318 1.711 2.064 2.492 | 2.797 
25 0.684 1.316 1.708 2.060 2.485 | 2.787 
26 0.684 1.315 1.706 2.056 2479 | 277 
27 0.684 1.314 1.703 2.052 247% | 2771 
28 0.683 1.313 1.701 2.048 2467 | 2.763 
29 0.683 1311 1.699 2.045 2.462 | 2.756 
30 0.683 1.310 1.697 2.042 2.457 | 2.750 
35 0.681 1.306 1.690 2.030 2438 | 2.724 
40 0.681 1.303 1.684 2.021 2.423 | 2.704 
80 0.679 1.291 1.671 2.000 2.390 | 2.660 

120 0.677 1.289 1.658 1.980 2.358 | 2.617 
n>120 0.674 1.282 1.645 1.960 2.326 | 2.576 


Anexa 3 
Cuantilele repartiţiei x? 


gradeiprob.| 0.005 | 0.01 | 0.025 | 0.05 0.1 0.9 0.95 | 0.975 | 0.99 
l 0.000 | 0.000 | 0.001 | 0.004 | 0.016 | 2.71 | 3.84 | 5.02 | 6.63 
2 0.010 | 0.020 | 0.051 | 0.103 | 0.211 | 4.60 | 5.99 | 7.38 | 921 
3 0.072 | 0.115 | 0.216 | 0.352 | 0.584 | 6.25 | 7.81 | 9.35 | 11.34 
4 0.207 | 0.297 | 0.484 | 0.711 | 1.06 | 7.78 | 9.48 | 11.1 | 13.28 
5 0.412 | 0.554 | 0.831 | 1.15 | 1.61 | 9.24 | 11.07 | 12.8 | 15.09 
6 0.676 | 0.872 | 1.24 | 1.64 | 2.20 | 10.64 | 12.59 | 14.4 | 16.81 
7 0.989 | 1.24 | 1.69 | 2.17 | 2.83 | 12.02 | 14.07 | 16.0 | 18.47 
8 1.34 | 1.65 | 2.18 | 2.73 | 3.49 | 13.36 | 15.51 | 17.5 |20.09 
9 1.73 | 2.09 | 2.70 | 3.33 | 4.17 | 14.68 | 16.92 | 19.0 [21.66 
10 2.16 | 2.56 | 3.25 | 3.94 | 4.87 | 16.99 | 18.31 | 20.5 |2321 
ISI 2.60 | 3.05 | 3.62 | 4.57 | 5.58 | 17.27 | 19.67 | 21.0 [24.72 
12 3.07 | 3.57 | 4.40 | 5.23 | 6.30 | 18.55 | 21.03 | 23.3 | 26.22 
13 3.57 | 4.11 | 5.01 | 5.89 | 7.04 | 19.81 | 22.36 | 24.7 | 27.69 
14 4.07 | 4.66 | 5.63 | 6.57 | 7.79 | 21.06 | 23.68 | 26.1 | 29.14 
15 4.60 | 5.23 | 6.26 | 7.26 | 8.55 | 22.31 | 25.00 | 27.6 | 30.58 
16 5.14 | 5.81 | 6.91 | 7.96 | 9.31 | 23.54 | 26.30 | 28.8 | 32.00 
6 5.70 | 6.41 | 7.56 | 8.67 | 10.08 | 24.77 | 27.59 | 30.2 | 33.41 
18 6.26 | 7.01 | 8.23 | 9.39 | 10.86 | 25.90 | 28.87 | 31.3 | 34.80 
19 6.84 | 7.63 | 8.91 | 10.1 | 11.65 | 27.20 | 30.14 | 32.9 | 36.19 
20 7.43 | 8.26 | 9.59 | 10.9 | 12.44 | 28.41 | 31.41 | 34.2 | 37.57 
21] 8.03 | 8.90 | 10.3 | 11.6 | 13.24 | 29.61 | 32.67 | 35.5 | 38.93 
22 8.64 | 9.54 | 11.0 | 12.3 | 14.04 | 30.81 | 33.02 | 36.8 | 40.29 
23 9.26 | 10.2 | 11.7 | 13.1 | 14.85 | 32.01 [35.17 | 38.1 | 41.64 
24 9.89 | 10.0 | 12.4 | 13.8 | 15.66 | 33.20 | 36.41 | 39.4 | 42.98 
25 10.5 | 11.5 | 13.1 | 14.6 | 16.47 | 34.38 | 37.65 | 40.6 [44.31 
26 11.2 | 12.2 | 13.8 | 15.4 | 17.29 | 35.56 | 38.88 | 41.9 | 45.64 
27 11.8 | 12.9 | 14.6 | 16.2 | 18.11 | 36.74 | 40.11 | 43.2 | 46.96 
28 12.5 | 13.6 | 15.3 | 16.9 | 18.04 | 37.92 | 41.34 | 44.5 | 48.28 
29 13.1 | 14.3 | 16.0 | 17.7 | 19.77 | 39.09 | 42.56 | 45.7 | 49.59 
30 13.8 | 15.0 | 16.8 | 18.5 | 20.60 | 40.26 | 43.77 | 47.0 | 50.89 
35 17.2 | 18.5 | 20.6 | 22.5 | 24.8 | 46.1 | 49.8 | 53.2 | 57.3 
40 20.7 | 22.2 | 24.4 | 26.5 | 29.1 | 51.8 | 55.8 | 59.3 | 63.7 
60 35.5 | 37.5 | 40.5 | 43.2 | 46.5 | 74.4 | 79.1 | 83.3 | 88.4 


Anexa 4 
Cuantilele repartiției Fisher - Snedecor 


Gr2Grl | Prob. 1 2 3 4 5 6 7 8 
0.95 | 161.4 | 199.5 | 216 225 230 234 237 239 
1 0.975 | 648 800 864 900 922 937 948 957 
0.99 | 4052 | 4999 | 5403 | 5625 | 5764 | 5859 | 5930 | S981 
0.95 | 18.51 | 19.00 | 19.16 | 19.25 | 19.30 | 19.33 | 19.35 | 19.37 
2 0.975 | 38.5 39.0 39.2 | 39.2 39.3 39.3 39.4 39.4 
0.99 | 98.49 | 99.00 | 99.17 | 99.25 | 99.30 | 99.33 | 99.35 | 99.36 
0.95 | 10.13 | 9.55 9.28 | 9.12 9.01 8.94 | 8.89 8.85 
3 0.975 | 17.4 16.0 15.1 15.4 14.9 14.7 14.6 14.5 
0.99 | 34.12 | 30.84 | 29.46 | 28.71 | 28.24 | 27.91 | 27.7 | 27.49 
0.95 | 17.71 | 6.94 6.59 | 6.39 6.26 6.16 | 6.09 6.04 
4 0.975 | 12.2 10.6 9.98 | 9.60 9.36 9.20 | 9.07 8.98 
0.99 | 21.20 | 18.00 | 16.69 | 15.98 | 15.52 | 15.21 | 15.0 | 14.80 
0.95 6.61 5.79 5.41 5.19 5.05 4.95 | 4.88 4.82 
5 0.975 | 10.0 8.43 7.76 | 7.39 7.15 6.98 | 6.85 6.76 
0.99 | 16.26 | 13.27 | 12.06 | 11.39 | 10.97 | 10.67 | 10;5 8.10 
0.95 5.99 | 5.14 | 4.76 | 4.53 4.39 | 4.28 | 421 4.15 
6 0.975 | 8.07 | 7.26 6.60 | 6.23 5.99 5.82 | 5.70 5.60 
0.99 | 12.25 | 10.91 | 9.78 | 9.15 8.75 8.47 | 8.26 8.10 
0.95 5.59 | 4.74 | 4.35 | 4.12 3.97 3.87 | 3.79 3.73 
7 0.975 | 8.07 | 9.54 5.89 | 5.52 5.29 5.12 | 4.99 | 4.90 
0.99 | 12.25 | 9.55 8.45 7.85 7.45 7.19 | 6.99 6.84 
0.95 5.32 | 4.46 | 4.07 | 3.84 3.69 3.58 | 3.50 3.44 
8 0.975 | 7.57 | 6.06 5.42 | 5.05 4.82 4.65 | 4.53 4.43 
0.99 | 11.26 | 8.65 7.59 1.01 6.63 6.37 | 6.18 6.03 
0.95 5.12 | 4.26 3.86 | 3.63 3.48 3.37 | 3.29 3.23 
9 0.975 | 7.21 5.71 5.08 | 4.72 4.48 4.32 | 4.20 | 4.10 
0.99 | 10.56 | 8.02 6.99 | 6.42 6.06 5.80 | 5.61 5.47 
0.95 | 4.96 | 4.10 3.71 3.48 3.33 3.22 | 3.14 3.07 
10 0.975 | 6.94 | 5.46 | 4.83 | 4.47 | 4.24 | 4.07 | 3.95 3.85 
0.99 | 10.04 | 7.56 6.55 5.99 5.64 5.39 | 5.20 5.06 
0.95 | 4.84 | 3.98 3.59 | 3.36 3.20 3.09 | 3.01 2.95 
INI 0.975 | 6.72 | 5.26 | 4.63 | 4.28 4.04 3.88 | 3.76 3.66 
0.99 | 9.65 7.20 6.22 | 5.67 5.32 5.07 | 4.89 | 4.74 
0.95 | 4.75 3.88 3.49 | 3.26 3.1 3.00 | 2.91 2.85 
12 0.975 | 6.55 5.10 | 4.47 | 4.12 3.89 3.73 3.61 3.51 
0.99 | 9.33 6.93 5.95 5.41 5.06 | 4.82 | 4.54 | 4.50 
0.95 | 4.67 | 3.81 3.41 3.18 3.03 2.92 | 2.83 271 
13 0.975 | 6.41 4.97 | 4.35 | 4.00 3.77 3.60 | 3.48 3.39 
0.99 | 9.07 | 6.70 5.74 | 5.221 | 4.86 | 4.62 | 4.44 | 4.30 
0.95 | 4.60 | 3.74 3.34 | 3.11 2.96 | 2.85 | 2.76 | 2.70 
14 0.975 | 6.30 | 4.86 | 4.24 | 3.89 3.66 3.50 | 3.38 3.29 
0.99 | 8.86 | 651 5.56 | 5.04 | 4.70 | 4.46 | 4.28 4.14 


0.95 | 4.54 | 3.68 3.29 | 3.06 | 2.90 | 2.79 | 2.71 2.64 

15 0.975 | 6.20 | 4.76 | 4.15 | 3.80 | 3.58 3.41 3.29 | 3.20 
0.99 | 8.68 | 6.36 | 5.42 | 4.89 | 4.56 | 4.32 | 4.14 | 4.00 

0.95 | 4.49 | 3.63 3.24 | 3.01 2.85 2.74 | 2.66 | 2.59 

16 0.975 | 6.12 | 4.69 | 4.08 | 3.73 3.50 | 3.34 | 3.22 | 3.12 
0.99 | 8.53 6.23 5.29 | 4.77 | 4.44 | 4.20 | 4.03 3.89 

0.95 | 4.45 3.59 | 3.20 | 2.96 | 2.81 2.70 | 2.61 2.55 

17 0.975 | 6.04 | 4.62 | 4.01 3.66 | 3.44 | 3.28 | 3.16 | 3.06 
0.99 | 8.40 | 6.11 5.18 | 4.67 | 4.34 | 4.10 | 3.93 3.79 

0.95 | 441 3.55 3.16 | 2.93 2.77 | 2.66 | 2.58 | 2.51 

18 0.975 | 5.98 | 4.56 | 3.95 | 361 3.38 3.22 | 3.10 | 3.01 
0.99 | 8.29 | 7.01 5.09 | 4.58 | 4.25 4.01 3.84 | 3.71 

0.95 | 4.38 | 3.52 3.13 | 2.90 | 2.74 | 2.63 | 2.54 | 2.46 

19 0.975 | 5.92 | 4:51 3.90 | 3.56 | 3.33 3.17 | 3.05 2.96 
0.99 | 8.18 | 5.93 5.01 4.50 | 4.17 | 3.94 | 3.77 | 3.63 

0.95 | 4.35 3.49 | 3.10 | 2.87 | 2.71 2.60 | 2.51 2.45 

20 0.975 | 5.87 | 4.46 | 3.86 | 3.51 3.29 | 3.13 | 3.01 2.91 
0.99 | 8.10 | 5.85 4.94 | 4.43 4.10 | 3.87 | 3.70 | 3.56 

0.95 | 4.32 | 3.47 | 3.07 | 2.84 | 2.68 | 2.57 | 2.49 | 2.42 

21 0.975 | 5.83 | 4.42 | 3.82 | 3.48 3.25 3.09 | 2.97 | 2.87 
0.99 | 8.02 | 5.78 | 4.87 | 4.37 | 4.04 | 3.84 | 3.64 | 351 

0.95 | 4.30 | 3.44 | 3.05 | 2.82 | 2.66 | 2.55 | 2.46 | 2.40 

22 0.975 | 5.79 | 4.38 3.78 | 3.44 | 3.22 3.05 | 2.93 2.84 
0.99 | 7.95 5.72 | 4.82 | 4.31 3.99 | 3.76 | 3.59 | 3.45 

0.05 | 4.28 | 3.42 | 3.03 | 2.80 | 2.64 | 2.53 | 2.44 | 2.37 

23 0.975 | 5.75 | 4.35 3.75 | 341 3.18 3.02 | 2.90 | 2.81 
0.99 | 7.88 | 5.66 | 4.76 | 4.26 | 3.94 | 3.71 3.54 | 341 

0.95 | 4.26 | 3.40 | 3.01 2.78 | 2.62 | 251 2.42 | 2.36 

24 0.975 | 5.72 | 4.32 | 3.72 | 3.38 3.15 2.99 | 2.87 | 2.78 
0.99 | 7.82 | 561 4.72 | 4.22 3.90 | 3.67 | 3.50 | 3.36 

Anexa 4 (continuare) 

Gr21Grl | Prob. 9 10 INI 12 13 14 15 16 
0.95 19.4 19.4 19.4 19.4 19.4 19.4 19.4 | 19.4 

2 0.975 | 39.4 39.4 39.4 39.4 39.4 39.4 39.4 | 39.4 
0.99 | 99.4 99.4 99.4 99.4 99.4 99.4 994 | 99.4 

0.95 | 8.81 8.79 8.76 8.74 8.73 8.71 8.70 | 8.69 

3 0.975 | 14.5 14.4 14.4 14.3 14.3 14.3 14.3 | 142 
0.99 | 27.3 27.1 27.1 27.1 27.0 26.9 26.9 | 26.8 

0.95 | 6.00 5.96 5.94 5.91 5.89 5.87 5.86 | 5.84 

4 0.975 | 8.90 8.84 8.79 8.75 8.72 8.69 8.06 | 8.64 
0.99 14.7 14.5 14.4 14.4 14.3 14.2 14.2 | 14.2 


0.05 | 4.77 | 4.74 | 4.70 | 4.68 | 4.66 | 4.64 | 4.62 | 4.60 
5 0.975 | 6.68 | 6.62 | 6.57 | 6.52 | 6.49 | 6.46 | 6.43 | 641 
0.99 | 10.2 10.1 9.96 | 9.89 | 9.82 | 9.77 | 9.72 | 9.68 
0.95 | 4.10 | 4.06 | 4.03 | 4.00 | 3.98 | 3.96 | 3.94 | 3.92 
6 0.975 | 5.52 | 5.46 | S.4l 5.37 | 5.33 | 5.30 | 5.27 | 5.25 
0.99 | 7.9 | 7.89 | 7.79 | 7.72 | 7.66 | 7.60 | 7.56 | 7.52 
0.95 | 3.68 | 3.64 | 3.60 | 3.57 | 3.55 | 3.53 | 3.51 | 3.49 
7 0.975 | 4.82 | 4.76 | 4.71 | 4.67 | 4.63 | 4.60 | 4.57 | 4.54 
0.99 | 6.72 | 6.62 | 6.54 | 6.47 | 641 6.36 | 6.31 | 6.27 
0.95 | 3.39 | 3.35 | 3.31 3.28 | 3.26 | 3.24 | 3.22 | 3.20 
8 0.975 | 4.36 | 4.30 | 4.24 | 4.20 | 4.16 | 4.13 | 4.10 | 4.08 
0.99 | 5.91 5.81 5.73 | 5.67 | 561 5.56 | 5.52 | 5.48 
0.05 | 3.18 | 3.14 | 3.10 | 3.07 | 3.05 | 3.03 | 3.01 | 2.99 
9 0.975 | 4.03 | 3.96 | 3.91 3.87 | 3.83 | 3.60 | 3.77 | 3.74 
0.99 | 5.35 | 5.26 | 5.18 | SLI 5.05 | 5.00 | 4.96 | 4.90 
0.95 | 3.02 | 2.98 | 2.94 | 2.01 2.89 | 2.86 | 2.85 | 2.83 
10 0.975 | 3.78 | 3.72 | 3.66 | 3.62 | 3.58 | 3.55 | 3.52 | 3.50 
0.99 | 4.94 | 4.85 | 4.77 | 471 4.65 | 4.60 | 4.56 | 4.52 
0.05 | 2.90 | 2.85 | 2.82 | 2.79 | 2.76 | 2.74 | 2.72 | 2.70 
ll 0.975 | 3.59 | 3.53 | 3.47 | 3.43 3.39 | 3.36 | 3.33 | 3.30 
0.99 | 4.63 | 4.54 | 4.46 | 4.40 | 4.34 | 4.29 | 4.25 [421 
0.05 | 2.80 | 2.75 | 2.72 | 2.69 | 2.66 | 2.64 | 2.62 | 2.60 
12 0.975 | 3.44 | 3.37 | 3.32 | 3.28 | 3.24 | 321 3.18 | 3.15 
0.99 | 4.39 | 4.30 | 4.22 | 4.16 | 4.10 | 4.05 | 4.01 | 3.97 
0.05 | 2.71 | 2.67 | 2.63 | 2.60 | 2.58 | 2.55 | 2.53 | 251 
13 0.975 | 3.31 3.25 | 3.20 | 3.15 3.12 | 3.08 | 3.05 | 3.03 
0.99 | 4.19 | 4.10 | 4.02 | 3.9 | 3.91 3.86 | 3.82 | 3.78 
0.05 | 2.65 | 2.60 | 2.57 | 2.53 | 2.51 | 2.48 | 2.46 | 2.44 
14 0.975 | 3.21 3.15 | 3.09 | 3.05 3.01 | 2.98 | 2.95 | 2.92 
0.99 | 4.03 | 3.94 | 3.86 | 3.80 | 3.75 | 3.70 | 3.66 | 3.62 
0.05 | 2.59 | 2.54 | 2.51 | 2.48 | 2.45 | 2.42 | 2.40 | 2.38 
15 0.975 | 3.12 | 3.06 | 3.01 | 2.96 | 2.92 | 2.89 | 2.86 | 2.84 
0.99 | 3.89 | 3.80 | 3.73 | 3.67 | 3.61 3.56 | 3.52 | 3.49 
0.05 | 2.54 | 2.49 | 2.46 | 2.42 | 2.40 | 2.37 | 2.35 | 2.33 
16 0.975 | 3.05 | 2.99 | 2.93 | 2.89 | 2.85 | 2.82 | 2.79 | 2.76 
0.99 | 3.78 | 3.69 | 3.62 | 3.55 3.50 | 3.45 | 3.41 | 3.37 
0.05 | 2.49 | 2.45 | 241 | 2.38 | 2.35 | 2.33 | 2.20 | 2.27 
17 0.975 | 2.98 | 2.92 | 2.87 | 2.82 | 2.79 | 2.75 | 2.72 | 2.70 
0.99 | 3.68 | 3.59 | 3.52 | 3.46 | 3.40 | 3.35 | 3.31 | 3.27 
0.05 | 2.46 | 2.41 | 2.37 | 2.34 | 2.31 | 2.29 | 2.27 | 2.25 
18 0.975 | 2.93 | 2.87 | 2.81 | 2.77 | 2.73 | 2.70 | 2.67 | 2.64 
0.99 | 3.60 | 3:51 3.43 | 3.37 | 3.32 | 3.27 | 3.23 | 3.19 
0.05 | 2.42 | 2.38 | 2.34 | 2.31 2.28 | 2.26 | 2.23 | 2.21 
19 0.975 | 2.88 | 2.82 | 2.76 | 2.72 | 2.68 | 2.65 | 2.62 | 2.59 
0.99 | 3.52 | 3.43 | 3.36 | 3.30 | 3.24 | 3.19 | 3.15 | 3.12 
0.05 | 2.39 | 2.35 | 2.31 | 2.28 | 2.25 | 2.22 | 2.20 | 2.19 
20 0.975 | 2.84 | 2.77 | 2.72 | 2.68 | 2.64 | 2.60 | 2.57 | 2.55 
0.99 | 3.46 | 3.37 | 3.20 | 3.23 3.18 | 3.13 | 3.09 | 3.05 


0.05 | 2.37 | 2.32 | 2.28 | 2.25 2.22 | 2.20 | 2.18 | 2.16 
21] 0.975 | 2.80 | 2.73 | 2.68 | 2.64 | 2.60 | 2.56 | 2.53 | 281 
0.99 | 3.40 | 3.31 3.24 | 3.17 | 3.12 | 3.07 | 3.03 | 2.99 
0.05 | 2.34 | 2.30 | 2.26 | 2.23 2.20 | 2.17 | 2.15 | 2.13 
22 0.975 | 2.76 | 2.70 | 2.65 | 2.60 | 2.56 | 2.53 | 2.50 | 2.47 
0.99 | 3.35 | 3.26 | 3.18 | 3.12 3.07 | .302 | 2.98 | 2.94 
0.05 | 2.32 | 2.27 | 2.23 | 2.20 | 2.18 | 2.15 | 2.13 [2.11 
23 0.975 | 2.73 | 2.67 | 2.62 | 2.57 | 2.53 | 2.50 | 2.47 | 2.44 
0.99 | 3.30 | 3.21 3.14 | 3.07 | 3.02 | 2.97 | 2.93 | 2.89 
0.05 | 2.30 | 2.25 | 221 2.18 | 2.15 | 2.13 | 2.11 | 2.09 
24 0.975 | 2.70 | 2.64 | 2.69 | 2.54 | 2.50 | 2.47 | 2.44 | 241 
0.99 | 3.26 | 3.17 | 3.09 | 3.03 2.98 | 2.93 | 2.89 | 2.85 


